Hvordan Hierarkisk Klynging Fungerer?
Hierarkisk klynging er en metode for klyngeanalyse som har som mål å bygge et hierarki av klynger. I motsetning til K-means krever den ikke at du forhåndsdefinerer antall klynger.
Algoritmen kan enten starte med hvert punkt i sin egen klynge og deretter gradvis slå dem sammen (agglomerativ klynging), eller starte med alle punkter i én klynge og deretter dele dem opp i mindre klynger (divisiv klynging).
Siden agglomerativ klynging er den mest brukte tilnærmingen, vil vi fokusere på denne.
Den vanligste typen hierarkisk klynging er bottom-up-tilnærmingen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhetsmatrise: beregn avstanden mellom hvert par av klynger;
-
Slå sammen klynger: de to nærmeste klyngene slås sammen til én klynge;
-
Oppdater nærhetsmatrise: beregn avstandene på nytt mellom den nye klyngen og alle gjenværende klynger;
-
Gjenta: trinn 3 og 4 gjentas til alle datapunkter er slått sammen til én klynge.
Koblingstyper
Nærheten mellom to klynger defineres av koblingstype. Vanlige koblingsmetoder brukt i hierarkisk klyngeanalyse er:
-
Enkeltkobling: avstanden mellom de nærmeste to punktene i de to klyngene;
-
Fullstendig kobling: avstanden mellom de fjerneste to punktene i de to klyngene;
-
Gjennomsnittskobling: gjennomsnittlig avstand mellom alle par av punkter i de to klyngene;
-
Wards metode: minimerer økningen i total varians innenfor klyngene ved sammenslåing av to klynger.
Valg av koblingsmetode kan påvirke formen og strukturen til de resulterende klyngene. Eksperimentering og domeneekspertise er ofte nyttig for å velge den beste metoden for dine data.
Dendrogram
Resultatene av hierarkisk klyngeanalyse visualiseres ofte ved hjelp av et dendrogram.
Et dendrogram er et trelignende diagram som viser det hierarkiske forholdet mellom klyngene. Høyden på grenene i dendrogrammet representerer avstanden mellom klyngene.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain more about how to interpret a dendrogram?
What are the advantages and disadvantages of hierarchical clustering?
How do I choose the best linkage method for my data?
Awesome!
Completion rate improved to 2.94
Hvordan Hierarkisk Klynging Fungerer?
Sveip for å vise menyen
Hierarkisk klynging er en metode for klyngeanalyse som har som mål å bygge et hierarki av klynger. I motsetning til K-means krever den ikke at du forhåndsdefinerer antall klynger.
Algoritmen kan enten starte med hvert punkt i sin egen klynge og deretter gradvis slå dem sammen (agglomerativ klynging), eller starte med alle punkter i én klynge og deretter dele dem opp i mindre klynger (divisiv klynging).
Siden agglomerativ klynging er den mest brukte tilnærmingen, vil vi fokusere på denne.
Den vanligste typen hierarkisk klynging er bottom-up-tilnærmingen. Algoritmen er som følger:
-
Initialisering: hvert datapunkt behandles som en enkelt klynge;
-
Beregn nærhetsmatrise: beregn avstanden mellom hvert par av klynger;
-
Slå sammen klynger: de to nærmeste klyngene slås sammen til én klynge;
-
Oppdater nærhetsmatrise: beregn avstandene på nytt mellom den nye klyngen og alle gjenværende klynger;
-
Gjenta: trinn 3 og 4 gjentas til alle datapunkter er slått sammen til én klynge.
Koblingstyper
Nærheten mellom to klynger defineres av koblingstype. Vanlige koblingsmetoder brukt i hierarkisk klyngeanalyse er:
-
Enkeltkobling: avstanden mellom de nærmeste to punktene i de to klyngene;
-
Fullstendig kobling: avstanden mellom de fjerneste to punktene i de to klyngene;
-
Gjennomsnittskobling: gjennomsnittlig avstand mellom alle par av punkter i de to klyngene;
-
Wards metode: minimerer økningen i total varians innenfor klyngene ved sammenslåing av to klynger.
Valg av koblingsmetode kan påvirke formen og strukturen til de resulterende klyngene. Eksperimentering og domeneekspertise er ofte nyttig for å velge den beste metoden for dine data.
Dendrogram
Resultatene av hierarkisk klyngeanalyse visualiseres ofte ved hjelp av et dendrogram.
Et dendrogram er et trelignende diagram som viser det hierarkiske forholdet mellom klyngene. Høyden på grenene i dendrogrammet representerer avstanden mellom klyngene.
Takk for tilbakemeldingene dine!