Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Hur Hierarkisk Klustring Fungerar | Hierarkisk Klustring
Klusteranalys

bookHur Hierarkisk Klustring Fungerar

Note
Definition

Hierarkisk klustring är en metod för klusteranalys som syftar till att bygga en hierarki av kluster. Till skillnad från K-means kräver den inte att du förbestämmer antalet kluster.

Algoritmen kan antingen börja med varje punkt i sitt eget kluster och successivt slå ihop dem (agglomerativ klustring), eller börja med alla punkter i ett kluster och rekursivt dela upp dem i mindre kluster (divisiv klustring).

Eftersom agglomerativ klustring är det vanligaste tillvägagångssättet fokuserar vi på det.

Den vanligaste typen av hierarkisk klustring är bottom-up-metoden. Algoritmen är följande:

  1. Initialisering: varje datapunkt behandlas som ett enskilt kluster;

  2. Beräkna närhetsmatris: beräkna avståndet mellan varje klusterpar;

  3. Sammanfoga kluster: de två närmaste klustren slås samman till ett kluster;

  4. Uppdatera närhetsmatris: beräkna om avstånden mellan det nya klustret och alla återstående kluster;

  5. Upprepa: steg 3 och 4 upprepas tills alla datapunkter har slagits samman till ett enda kluster.

Länkningsmetoder

Närheten mellan två kluster definieras av länkningsmetoden. Vanliga länkningsmetoder som används vid hierarkisk klustring är:

  • Enkel länkning: avståndet mellan de närmaste två punkterna i de två klustren;

  • Fullständig länkning: avståndet mellan de mest avlägsna två punkterna i de två klustren;

  • Genomsnittlig länkning: det genomsnittliga avståndet mellan alla punktpar i de två klustren;

  • Wards metod: minimerar ökningen av den totala inomkluster-variansen vid sammanslagning av två kluster.

Valet av länkningsmetod kan påverka formen och strukturen hos de resulterande klustren. Experimentering och domänkunskap är ofta till hjälp vid val av bästa metod för dina data.

Dendrogram

Resultaten av hierarkisk klustring visualiseras ofta med hjälp av ett dendrogram.

Note
Definition

Ett dendrogram är ett trädliknande diagram som visar den hierarkiska relationen mellan klustren. Höjden på grenarna i dendrogrammet representerar avståndet mellan klustren.

question mark

Vad är den främsta egenskapen hos bottom-up (agglomerativ) hierarkisk klustring?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 2.94

bookHur Hierarkisk Klustring Fungerar

Svep för att visa menyn

Note
Definition

Hierarkisk klustring är en metod för klusteranalys som syftar till att bygga en hierarki av kluster. Till skillnad från K-means kräver den inte att du förbestämmer antalet kluster.

Algoritmen kan antingen börja med varje punkt i sitt eget kluster och successivt slå ihop dem (agglomerativ klustring), eller börja med alla punkter i ett kluster och rekursivt dela upp dem i mindre kluster (divisiv klustring).

Eftersom agglomerativ klustring är det vanligaste tillvägagångssättet fokuserar vi på det.

Den vanligaste typen av hierarkisk klustring är bottom-up-metoden. Algoritmen är följande:

  1. Initialisering: varje datapunkt behandlas som ett enskilt kluster;

  2. Beräkna närhetsmatris: beräkna avståndet mellan varje klusterpar;

  3. Sammanfoga kluster: de två närmaste klustren slås samman till ett kluster;

  4. Uppdatera närhetsmatris: beräkna om avstånden mellan det nya klustret och alla återstående kluster;

  5. Upprepa: steg 3 och 4 upprepas tills alla datapunkter har slagits samman till ett enda kluster.

Länkningsmetoder

Närheten mellan två kluster definieras av länkningsmetoden. Vanliga länkningsmetoder som används vid hierarkisk klustring är:

  • Enkel länkning: avståndet mellan de närmaste två punkterna i de två klustren;

  • Fullständig länkning: avståndet mellan de mest avlägsna två punkterna i de två klustren;

  • Genomsnittlig länkning: det genomsnittliga avståndet mellan alla punktpar i de två klustren;

  • Wards metod: minimerar ökningen av den totala inomkluster-variansen vid sammanslagning av två kluster.

Valet av länkningsmetod kan påverka formen och strukturen hos de resulterande klustren. Experimentering och domänkunskap är ofta till hjälp vid val av bästa metod för dina data.

Dendrogram

Resultaten av hierarkisk klustring visualiseras ofta med hjälp av ett dendrogram.

Note
Definition

Ett dendrogram är ett trädliknande diagram som visar den hierarkiska relationen mellan klustren. Höjden på grenarna i dendrogrammet representerar avståndet mellan klustren.

question mark

Vad är den främsta egenskapen hos bottom-up (agglomerativ) hierarkisk klustring?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 1
some-alt