Summary  
This chapter covers how to generate synthetic 2D data and apply hierarchical clustering by instantiating AgglomerativeClustering with various linkage methods, fitting it, and printing cluster labels. It also demonstrates computing a linkage matrix via SciPy and visualizing the resulting dendrogram.  

General domain of usage  
Unsupervised machine learning

Som vanligt kommer du att använda följande bibliotek:
- `sklearn` för att generera dummydata och implementera hierarkisk klustring (`AgglomerativeClustering`);

- `scipy` för att generera och arbeta med dendrogrammet;

- `matplotlib` för att visualisera kluster och dendrogram;

- `numpy` för numeriska operationer.

## Generera dummydata

Du kan använda funktionen `make_blobs()` från `scikit-learn` för att generera dataset med **olika antal kluster** och **varierande grad av separation**. Detta hjälper dig att se hur hierarkisk klustring presterar i olika scenarier.

Den allmänna algoritmen är följande:

1.  Instansiera `AgglomerativeClustering`-objektet och ange **länkningsmetod** samt andra parametrar;     

2.  Anpassa modellen till dina data; 

3.  Extrahera **klusteretiketter** om du bestämmer ett specifikt antal kluster;      

4.  Visualisera klustren (om datan är 2D eller 3D) med hjälp av **spridningsdiagram**;     

5.  Använd SciPy:s `linkage` för att skapa **länkningsmatrisen** och sedan **dendrogram** för att visualisera dendrogrammet. 


Du kan även experimentera med **olika länkningsmetoder** (t.ex. single, complete, average, Ward's) och observera hur de påverkar klustringsresultaten och dendrogrammets struktur. 

Ladda ner koden för detta kapitel

Få en gedigen förståelse för klusteranalys, en central teknik inom osupervised learning för att identifiera mönster i oetiketterad data. Utforska grunderna i K-Means, Hierarkisk klustring, DBSCAN och GMM, samt få praktisk erfarenhet med verkliga datamängder för att bygga upp förtroende i att tillämpa klustring på verkliga problem.

Fördjupa dig i grunderna för klustring och upptäck hur det skiljer sig från klassificering. Utforska grundläggande algoritmer, verktyg och bibliotek som driver denna oövervakade inlärningsteknik för att avslöja dolda mönster i data.

Få en gedigen förståelse för centrala förbehandlingstekniker som säkerställer effektiv klustring.
Hantering av saknade värden.
Kodning av kategoriska variabler.
Normalisering av data.
Val av lämpliga avståndsmått och länkningar för att förbättra klustringsnoggrannheten.

Behärska de färdigheter som krävs för att tillämpa K-Means-klustring effektivt. Förstå hur algoritmen fungerar, fastställ det optimala antalet kluster och få praktisk erfarenhet genom att implementera K-Means på både syntetiska och verkliga datamängder.

Utforska grunderna i hierarkisk klustring och lär dig att gruppera data i meningsfulla kluster med hjälp av dendrogram. Få förståelse för att identifiera det optimala antalet kluster och tillämpa tekniken på både syntetiska och verkliga dataset.

Utforska hur DBSCAN utmärker sig vid identifiering av kluster med varierande former och hantering av brus i data. Förstå mekanismerna bakom denna täthetsbaserade algoritm, hur punkter tilldelas kluster samt tillämpa den på både syntetiska och verkliga datamängder med säkerhet.

Få en gedigen förståelse för Gaussiska Mixturmodeller och hur de använder sannolikhet för att modellera komplexa klusterformer. Utforska principerna bakom Gaussisk fördelning, undersök hur GMM fungerar och stärk din kompetens genom att tillämpa dem på både simulerad och verklig data.

Implementering på Dummy-Dataset

Generera dummydata