Implementering på Dummy-Dataset
Som vanligt kommer du att använda följande bibliotek:
-
sklearnför att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering); -
scipyför att generera och arbeta med dendrogrammet; -
matplotlibför att visualisera kluster och dendrogram; -
numpyför numeriska operationer.
Generera dummydata
Du kan använda funktionen make_blobs() från scikit-learn för att generera dataset med olika antal kluster och varierande grad av separation. Detta hjälper dig att se hur hierarkisk klustring presterar i olika scenarier.
Den generella algoritmen är följande:
-
Instansiera ett
AgglomerativeClustering-objekt och ange länkningsmetod samt andra parametrar; -
Anpassa modellen till dina data;
-
Extrahera klusteretiketter om du bestämmer ett specifikt antal kluster;
-
Visualisera klustren (om datan är 2D eller 3D) med spridningsdiagram;
-
Använd SciPy:s
linkageför att skapa länkningsmatrisen och sedan dendrogram för att visualisera dendrogrammet.
Du kan även experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur de påverkar klustringsresultaten och dendrogrammets struktur.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Fantastiskt!
Completion betyg förbättrat till 3.23
Implementering på Dummy-Dataset
Svep för att visa menyn
Som vanligt kommer du att använda följande bibliotek:
-
sklearnför att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering); -
scipyför att generera och arbeta med dendrogrammet; -
matplotlibför att visualisera kluster och dendrogram; -
numpyför numeriska operationer.
Generera dummydata
Du kan använda funktionen make_blobs() från scikit-learn för att generera dataset med olika antal kluster och varierande grad av separation. Detta hjälper dig att se hur hierarkisk klustring presterar i olika scenarier.
Den generella algoritmen är följande:
-
Instansiera ett
AgglomerativeClustering-objekt och ange länkningsmetod samt andra parametrar; -
Anpassa modellen till dina data;
-
Extrahera klusteretiketter om du bestämmer ett specifikt antal kluster;
-
Visualisera klustren (om datan är 2D eller 3D) med spridningsdiagram;
-
Använd SciPy:s
linkageför att skapa länkningsmatrisen och sedan dendrogram för att visualisera dendrogrammet.
Du kan även experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur de påverkar klustringsresultaten och dendrogrammets struktur.
Tack för dina kommentarer!