Summary  
This chapter covers how to generate synthetic 2D data and apply hierarchical clustering by instantiating AgglomerativeClustering with various linkage methods, fitting it, and printing cluster labels. It also demonstrates computing a linkage matrix via SciPy and visualizing the resulting dendrogram.  

General domain of usage  
Unsupervised machine learning

Som vanlig bruker du følgende biblioteker:
- `sklearn` for å generere dummydata og implementere hierarkisk klynging (`AgglomerativeClustering`);

- `scipy` for å generere og arbeide med dendrogrammet;

- `matplotlib` for å visualisere klynger og dendrogrammet;

- `numpy` for numeriske operasjoner.

## Generering av dummydata

Du kan bruke funksjonen `make_blobs()` fra `scikit-learn` til å generere datasett med **forskjellig antall klynger** og **varierende grad av separasjon**. Dette hjelper deg å se hvordan hierarkisk klynging fungerer i ulike scenarier.

Den generelle algoritmen er som følger:

1.  Instansiering av `AgglomerativeClustering`-objektet, der **koblingsmetode** og andre parametere spesifiseres;     

2.  Modelltilpasning til dataene dine; 

3.  Uttrekking av **klyngeetiketter** dersom et bestemt antall klynger er valgt;      

4.  Visualisering av klyngene (hvis dataene er 2D eller 3D) ved bruk av **spredningsdiagrammer**;     

5.  Bruk av SciPy sin `linkage` for å lage **koblingsmatrisen** og deretter **dendrogram** for å visualisere dendrogrammet. 


Det er også mulig å eksperimentere med **ulike koblingsmetoder** (f.eks. single, complete, average, Ward's) og observere hvordan de påvirker klyngeinndelingen og strukturen til dendrogrammet.

Last ned koden for dette kapittelet

Få en solid forståelse av klyngeanalyse, en sentral usupervisert læringsteknikk for å avdekke mønstre i umerkede data. Utforsk det grunnleggende innen K-Means, hierarkisk klyngeanalyse, DBSCAN og GMM-er, og få praktisk erfaring med ekte datasett for å bygge selvtillit i anvendelse av klyngeanalyse på reelle problemer.

Fordyp deg i det grunnleggende innen klyngeanalyse og oppdag hvordan det skiller seg fra klassifisering. Utforsk sentrale algoritmer, verktøy og biblioteker som driver denne teknikken for ikke-veiledet læring for å avdekke skjulte mønstre i data.

Få en grundig forståelse av sentrale forhåndsbehandlingsteknikker som sikrer effektiv klyngeanalyse. Lær hvordan man håndterer manglende verdier, koder kategoriske egenskaper, normaliserer data og velger passende avstandsmål og koblinger for å øke nøyaktigheten i klyngeanalysen.

Behersk ferdighetene som kreves for å anvende K-Means-klynging effektivt. Lær hvordan algoritmen fungerer, bestem det optimale antallet klynger, og få praktisk erfaring ved å implementere K-Means på både syntetiske og virkelige datasett.

Utforsk det grunnleggende innen hierarkisk klynging og lær hvordan data kan grupperes i meningsfulle klynger ved hjelp av dendrogrammer. Bygg trygghet i å identifisere det optimale antallet klynger og implementere teknikken på både syntetiske og virkelige datasett.

Utforsk hvordan DBSCAN utmerker seg i å oppdage klynger med varierende former og håndtere støy i data. Lær mekanismene bak denne tetthetsbaserte algoritmen, hvordan punkter tilordnes klynger, og bruk den på både syntetiske og virkelige datasett med trygghet.

Få en grundig forståelse av gaussiske blandingsmodeller og hvordan de bruker sannsynlighet for å modellere komplekse klyngestrukturer. Prinsipper for gaussisk fordeling, utforskning av hvordan GMM fungerer, samt anvendelse på både dummydata og virkelige datasett.

Implementering på Dummy-datasett

Generering av dummydata

Implementering på Dummy-datasett

Generering av dummydata