Hvordan Hierarkisk Klyngedannelse Fungerer?
Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenflette dem (agglomerativ klyngeanalyse), eller starte med alle punkter i én klynge og rekursivt opdele dem i mindre klynger (divisiv klyngeanalyse).
Da agglomerativ klyngeanalyse er den mest anvendte tilgang, vil vi fokusere på denne.
Den mest almindelige type af hierarkisk klyngeanalyse er bottom-up-tilgangen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
-
Sammenflet klynger: de to nærmeste klynger sammenflettes til én klynge;
-
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
-
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenflettet til én klynge.
Linkage-typer
Nærheden mellem to klynger defineres af linkage-typen. Almindelige linkage-metoder, der anvendes i hierarkisk klyngeanalyse, er:
-
Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
-
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
-
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
-
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenfletning af to klynger.
Valget af linkage-metode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.
Dendrogram
Resultaterne af hierarkisk klyngedannelse visualiseres ofte ved hjælp af et dendrogram.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.94
Hvordan Hierarkisk Klyngedannelse Fungerer?
Stryg for at vise menuen
Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenflette dem (agglomerativ klyngeanalyse), eller starte med alle punkter i én klynge og rekursivt opdele dem i mindre klynger (divisiv klyngeanalyse).
Da agglomerativ klyngeanalyse er den mest anvendte tilgang, vil vi fokusere på denne.
Den mest almindelige type af hierarkisk klyngeanalyse er bottom-up-tilgangen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
-
Sammenflet klynger: de to nærmeste klynger sammenflettes til én klynge;
-
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
-
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenflettet til én klynge.
Linkage-typer
Nærheden mellem to klynger defineres af linkage-typen. Almindelige linkage-metoder, der anvendes i hierarkisk klyngeanalyse, er:
-
Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
-
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
-
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
-
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenfletning af to klynger.
Valget af linkage-metode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.
Dendrogram
Resultaterne af hierarkisk klyngedannelse visualiseres ofte ved hjælp af et dendrogram.
Tak for dine kommentarer!