Hvordan Hierarkisk Klyngedannelse Fungerer?
Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du på forhånd angiver antallet af klynger.
Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenlægge dem (agglomerativ klyngedannelse), eller starte med alle punkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).
Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.
Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
-
Sammenlæg klynger: de to nærmeste klynger sammenlægges til én klynge;
-
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
-
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenlagt til én klynge.
Sammenkoblingstyper
Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder, der anvendes i hierarkisk klyngeanalyse, er:
-
Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
-
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
-
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
-
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.
Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domænekendskab er ofte nyttige ved valg af den bedste metode til dine data.
Dendrogram
Resultaterne af hierarkisk klyngeanalyse visualiseres ofte ved hjælp af et dendrogram.
Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden af grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.94
Hvordan Hierarkisk Klyngedannelse Fungerer?
Stryg for at vise menuen
Hierarkisk klyngedannelse er en metode til klyngeanalyse, der søger at opbygge et hierarki af klynger. I modsætning til K-means kræver den ikke, at du på forhånd angiver antallet af klynger.
Algoritmen kan enten starte med hver punkt i sin egen klynge og gradvist sammenlægge dem (agglomerativ klyngedannelse), eller starte med alle punkter i én klynge og derefter opdele dem rekursivt i mindre klynger (divisiv klyngedannelse).
Da agglomerativ klyngedannelse er den mest anvendte tilgang, vil vi fokusere på denne.
Den mest almindelige type af hierarkisk klyngedannelse er bottom-up-tilgangen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhedsmatrix: beregn afstanden mellem hvert par af klynger;
-
Sammenlæg klynger: de to nærmeste klynger sammenlægges til én klynge;
-
Opdater nærhedsmatrix: genberegn afstandene mellem den nye klynge og alle resterende klynger;
-
Gentag: trin 3 og 4 gentages, indtil alle datapunkter er sammenlagt til én klynge.
Sammenkoblingstyper
Nærheden mellem to klynger defineres af sammenkoblingstypen. Almindelige sammenkoblingsmetoder, der anvendes i hierarkisk klyngeanalyse, er:
-
Single linkage: afstanden mellem de to nærmeste punkter i de to klynger;
-
Complete linkage: afstanden mellem de to fjerneste punkter i de to klynger;
-
Average linkage: gennemsnitsafstanden mellem alle par af punkter i de to klynger;
-
Ward's metode: minimerer stigningen i den samlede varians inden for klyngen ved sammenlægning af to klynger.
Valget af sammenkoblingsmetode kan påvirke formen og strukturen af de resulterende klynger. Eksperimentering og domænekendskab er ofte nyttige ved valg af den bedste metode til dine data.
Dendrogram
Resultaterne af hierarkisk klyngeanalyse visualiseres ofte ved hjælp af et dendrogram.
Et dendrogram er et træ-lignende diagram, der viser det hierarkiske forhold mellem klyngerne. Højden af grenene i dendrogrammet repræsenterer afstanden mellem klyngerne.
Tak for dine kommentarer!