Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Implementering på Dummy-Dataset | Sektion
Grunderna i osupervised learning

bookImplementering på Dummy-Dataset

Som vanligt kommer du att använda följande bibliotek:

  • sklearn för att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering);

  • scipy för att generera och arbeta med dendrogrammet;

  • matplotlib för att visualisera kluster och dendrogram;

  • numpy för numeriska operationer.

Generera dummydata

Du kan använda funktionen make_blobs() från scikit-learn för att generera dataset med olika antal kluster och varierande grad av separation. Detta hjälper dig att se hur hierarkisk klustring presterar i olika scenarier.

Den generella algoritmen är följande:

  1. Instansiera ett AgglomerativeClustering-objekt och ange länkningsmetod samt andra parametrar;

  2. Anpassa modellen till dina data;

  3. Extrahera klusteretiketter om du bestämmer ett specifikt antal kluster;

  4. Visualisera klustren (om datan är 2D eller 3D) med spridningsdiagram;

  5. Använd SciPy:s linkage för att skapa länkningsmatrisen och sedan dendrogram för att visualisera dendrogrammet.

Du kan även experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur de påverkar klustringsresultaten och dendrogrammets struktur.

question mark

Vilken klass från scikit-learn används för att utföra hierarkisk klustring på en dummy-datamängd?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 16

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

bookImplementering på Dummy-Dataset

Svep för att visa menyn

Som vanligt kommer du att använda följande bibliotek:

  • sklearn för att generera dummydata och implementera hierarkisk klustring (AgglomerativeClustering);

  • scipy för att generera och arbeta med dendrogrammet;

  • matplotlib för att visualisera kluster och dendrogram;

  • numpy för numeriska operationer.

Generera dummydata

Du kan använda funktionen make_blobs() från scikit-learn för att generera dataset med olika antal kluster och varierande grad av separation. Detta hjälper dig att se hur hierarkisk klustring presterar i olika scenarier.

Den generella algoritmen är följande:

  1. Instansiera ett AgglomerativeClustering-objekt och ange länkningsmetod samt andra parametrar;

  2. Anpassa modellen till dina data;

  3. Extrahera klusteretiketter om du bestämmer ett specifikt antal kluster;

  4. Visualisera klustren (om datan är 2D eller 3D) med spridningsdiagram;

  5. Använd SciPy:s linkage för att skapa länkningsmatrisen och sedan dendrogram för att visualisera dendrogrammet.

Du kan även experimentera med olika länkningsmetoder (t.ex. single, complete, average, Ward's) och observera hur de påverkar klustringsresultaten och dendrogrammets struktur.

question mark

Vilken klass från scikit-learn används för att utföra hierarkisk klustring på en dummy-datamängd?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 16
some-alt