Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Implementering på Dummydatauppsättning | Hierarkisk Klustring
Klusteranalys

bookImplementering på Dummydatauppsättning

Som vanligt används följande bibliotek:

  • sklearn för att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering);

  • scipy för att generera och arbeta med dendrogrammet;

  • matplotlib för att visualisera kluster och dendrogram;

  • numpy för numeriska operationer.

Generering av dummydata

Funktionen make_blobs() från scikit-learn kan användas för att skapa dataset med olika antal kluster och varierande grad av separation. Detta möjliggör observation av hur hierarkisk klustring presterar i olika scenarier.

Den allmänna algoritmen är följande:

  1. Instansiera ett AgglomerativeClustering-objekt och ange länkningsmetod samt andra parametrar;

  2. Anpassa modellen till data;

  3. Extrahera klusteretiketter om ett specifikt antal kluster anges;

  4. Visualisera klustren (om data är 2D eller 3D) med spridningsdiagram;

  5. Använd SciPy:s linkage för att skapa länkningsmatrisen och därefter dendrogram för att visualisera dendrogrammet.

Det går även att experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur dessa påverkar klustringsresultaten och dendrogrammets struktur.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 2.94

bookImplementering på Dummydatauppsättning

Svep för att visa menyn

Som vanligt används följande bibliotek:

  • sklearn för att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering);

  • scipy för att generera och arbeta med dendrogrammet;

  • matplotlib för att visualisera kluster och dendrogram;

  • numpy för numeriska operationer.

Generering av dummydata

Funktionen make_blobs() från scikit-learn kan användas för att skapa dataset med olika antal kluster och varierande grad av separation. Detta möjliggör observation av hur hierarkisk klustring presterar i olika scenarier.

Den allmänna algoritmen är följande:

  1. Instansiera ett AgglomerativeClustering-objekt och ange länkningsmetod samt andra parametrar;

  2. Anpassa modellen till data;

  3. Extrahera klusteretiketter om ett specifikt antal kluster anges;

  4. Visualisera klustren (om data är 2D eller 3D) med spridningsdiagram;

  5. Använd SciPy:s linkage för att skapa länkningsmatrisen och därefter dendrogram för att visualisera dendrogrammet.

Det går även att experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur dessa påverkar klustringsresultaten och dendrogrammets struktur.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 3
some-alt