Summary  
This chapter covers how to generate synthetic 2D data and apply hierarchical clustering by instantiating AgglomerativeClustering with various linkage methods, fitting it, and printing cluster labels. It also demonstrates computing a linkage matrix via SciPy and visualizing the resulting dendrogram.  

General domain of usage  
Unsupervised machine learning

Som sædvanligt bruges følgende biblioteker:
- `sklearn` til generering af dummydata og implementering af hierarkisk klyngedannelse (`AgglomerativeClustering`);

- `scipy` til generering og håndtering af dendrogrammet;

- `matplotlib` til visualisering af klynger og dendrogrammet;

- `numpy` til numeriske operationer.

## Generering af dummydata

Funktionen `make_blobs()` fra `scikit-learn` kan bruges til at generere datasæt med **forskelligt antal klynger** og **varierende grader af adskillelse**. Dette hjælper med at illustrere, hvordan hierarkisk klyngedannelse fungerer under forskellige forhold.

Den generelle algoritme er som følger:

1.  Instansiering af `AgglomerativeClustering`-objektet, hvor **linkage-metode** og andre parametre angives;     

2.  Modellens tilpasning til dataene; 

3.  Udtrækning af **klyngeetiketter**, hvis et specifikt antal klynger vælges;      

4.  Visualisering af klyngerne (hvis dataene er 2D eller 3D) ved brug af **spredningsdiagrammer**;     

5.  Anvendelse af SciPy's `linkage` til at oprette **linkage-matrixen** og derefter **dendrogram** for at visualisere dendrogrammet. 


Der kan også eksperimenteres med **forskellige linkage-metoder** (f.eks. single, complete, average, Ward's) og observeres, hvordan de påvirker klyngeresultaterne og dendrogrammets struktur. 

Download koden til dette kapitel

Opnå en solid forståelse af klyngeanalyse, en central ikke-superviseret læringsteknik til at afdække mønstre i uetiketterede data. Udforsk det grundlæggende i K-Means, Hierarkisk Klyngedannelse, DBSCAN og GMM'er, og få praktisk erfaring med rigtige datasæt for at opbygge tillid til anvendelse af klyngeanalyse på virkelige problemer.

Dyk ned i de grundlæggende principper for klyngering og opdag, hvordan det adskiller sig fra klassifikation. Udforsk essentielle algoritmer, værktøjer og biblioteker, der driver denne usuperviserede læringsteknik til at afdække skjulte mønstre i data.

Opnå et solidt kendskab til centrale forbehandlingsteknikker, der sikrer effektiv klyngeanalyse. Håndtering af manglende værdier, kodning af kategoriske variable, normalisering af data samt valg af passende afstandsmål og koblinger for at øge nøjagtigheden af klyngeanalysen.

Opnå færdighederne til effektiv anvendelse af K-Means klyngedannelse. Forstå algoritmens funktion, fastlæg det optimale antal klynger, og få praktisk erfaring med implementering af K-Means på både syntetiske og virkelige datasæt.

Udforsk det grundlæggende i hierarkisk klyngedannelse og lær, hvordan data grupperes i meningsfulde klynger ved hjælp af dendrogrammer. Opnå fortrolighed med at identificere det optimale antal klynger og implementere teknikken på både syntetiske og virkelige datasæt.

Opdag, hvordan DBSCAN udmærker sig ved at identificere klynger med varierende former og håndtere støj i data. Forstå mekanismerne bag denne tæthedsbaserede algoritme, metoder til at tildele punkter til klynger samt anvendelse på både syntetiske og virkelige datasæt med sikkerhed.

Opnå et solidt kendskab til Gaussiske Mixture Models og hvordan de anvender sandsynlighed til at modellere komplekse klyngestrukturer. Gennemgå principperne for Gaussisk fordeling, undersøg hvordan GMM'er fungerer, og opbyg fortrolighed ved at anvende dem på både dummy- og virkelige data.

Implementering på Dummy-datasæt

Generering af dummydata

Implementering på Dummy-datasæt

Generering af dummydata