Hvordan Hierarkisk Klyngedannelse Fungerer
Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du forud angiver antallet af klynger.
Algoritmen kan enten starte med hver datapunkt i sin egen klynge og gradvist sammenflette dem (agglomerativ klyngedannelse), eller starte med alle datapunkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).
Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.
Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
-
Sammenflet klynger: de to nærmeste klynger sammenflettes til én klynge;
-
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
-
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenflettet til én klynge.
Sammenkoblingstyper
Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder anvendt i hierarkisk klyngedannelse er:
-
Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
-
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
-
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
-
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.
Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.
Dendrogram
Resultaterne af hierarkisk klyngedannelse visualiseres ofte ved hjælp af et dendrogram.
Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden på grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Fantastisk!
Completion rate forbedret til 3.23
Hvordan Hierarkisk Klyngedannelse Fungerer
Stryg for at vise menuen
Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du forud angiver antallet af klynger.
Algoritmen kan enten starte med hver datapunkt i sin egen klynge og gradvist sammenflette dem (agglomerativ klyngedannelse), eller starte med alle datapunkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).
Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.
Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
-
Sammenflet klynger: de to nærmeste klynger sammenflettes til én klynge;
-
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
-
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenflettet til én klynge.
Sammenkoblingstyper
Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder anvendt i hierarkisk klyngedannelse er:
-
Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
-
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
-
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
-
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.
Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domæneviden er ofte nyttige ved valg af den bedste metode til dine data.
Dendrogram
Resultaterne af hierarkisk klyngedannelse visualiseres ofte ved hjælp af et dendrogram.
Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden på grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.
Tak for dine kommentarer!