Implementering på Dummydatauppsättning
Som vanligt används följande bibliotek:
-
sklearn
för att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering
); -
scipy
för att generera och arbeta med dendrogrammet; -
matplotlib
för att visualisera kluster och dendrogram; -
numpy
för numeriska operationer.
Generering av dummydata
Funktionen make_blobs()
från scikit-learn
kan användas för att generera dataset med olika antal kluster och varierande grad av separation. Detta hjälper till att visa hur hierarkisk klustring presterar i olika scenarier.
Den allmänna algoritmen är följande:
-
Instansiera ett
AgglomerativeClustering
-objekt och ange länkningsmetod samt andra parametrar; -
Anpassa modellen till dina data;
-
Extrahera klusteretiketter om ett specifikt antal kluster anges;
-
Visualisera klustren (om datan är 2D eller 3D) med spridningsdiagram;
-
Använd SciPy:s
linkage
för att skapa länkningsmatrisen och sedan dendrogram för att visualisera dendrogrammet.
Det går även att experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur dessa påverkar klustringsresultaten och dendrogrammets struktur.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain the difference between the various linkage methods?
How do I interpret a dendrogram in hierarchical clustering?
What are some practical tips for choosing the number of clusters?
Awesome!
Completion rate improved to 2.94
Implementering på Dummydatauppsättning
Svep för att visa menyn
Som vanligt används följande bibliotek:
-
sklearn
för att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering
); -
scipy
för att generera och arbeta med dendrogrammet; -
matplotlib
för att visualisera kluster och dendrogram; -
numpy
för numeriska operationer.
Generering av dummydata
Funktionen make_blobs()
från scikit-learn
kan användas för att generera dataset med olika antal kluster och varierande grad av separation. Detta hjälper till att visa hur hierarkisk klustring presterar i olika scenarier.
Den allmänna algoritmen är följande:
-
Instansiera ett
AgglomerativeClustering
-objekt och ange länkningsmetod samt andra parametrar; -
Anpassa modellen till dina data;
-
Extrahera klusteretiketter om ett specifikt antal kluster anges;
-
Visualisera klustren (om datan är 2D eller 3D) med spridningsdiagram;
-
Använd SciPy:s
linkage
för att skapa länkningsmatrisen och sedan dendrogram för att visualisera dendrogrammet.
Det går även att experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur dessa påverkar klustringsresultaten och dendrogrammets struktur.
Tack för dina kommentarer!