Summary  
This chapter demonstrates how to generate synthetic data and implement k-means clustering in code, including fitting the model, computing WSS (inertia) and Silhouette scores to choose the optimal number of clusters, and visualizing the resulting clusters and centroids.  

General domain of usage  
Unsupervised machine learning (cluster analysis)

Du vil nu gennemgå et praktisk eksempel på anvendelse af **K-means clustering**. Til dette formål anvendes et **dummy-datasæt**. Dummy-datasæt er kunstigt genererede datasæt, der ofte bruges til demonstration og læringsformål. De gør det muligt at **kontrollere dataens karakteristika** og tydeligt observere, hvordan algoritmer som K-means fungerer.

## Dummy-datasæt

Til denne demonstration oprettes et dummy-datasæt ved hjælp af funktionen `make_blobs()`. Denne funktion er velegnet til at generere klynger af datapunkter på en **visuelt tydelig** og **kontrollerbar** måde. Dataene genereres med følgende karakteristika:

-  **Antal eksempler**: der oprettes et datasæt med `300` datapunkter;

- **Antal centre**: antallet af reelle klynger sættes til `4`. Dette betyder, at dummy-dataene er designet til at have fire adskilte grupper;

- **Klynge-standardafvigelse**: spredningen af datapunkter inden for hver klynge kontrolleres og sættes til `0.60` for relativt kompakte klynger;

- **Random state**: der anvendes en fast `random_state` for reproducerbarhed, hvilket sikrer, at datagenereringen er ensartet hver gang koden køres.

```python
X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)
```

## K-means-implementering

Med dette dummy-datasæt oprettet anvendes herefter **K-means-algoritmen**. Det undersøges, hvordan K-means forsøger at **opdele disse data i klynger** baseret på de principper, der er gennemgået i tidligere kapitler.

K-means kan initialiseres og trænes således i Python:

```python
kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)
``` 

For at bestemme det **optimale antal klynger** for disse data anvendes de metoder, der er diskuteret i de foregående kapitler:

- **WSS-metoden**: Within-Sum-of-Squares beregnes for forskellige værdier af K, og elbow-plottet analyseres for at identificere et potentielt optimalt K;

- **Silhouette score-metoden**: Silhouette Score beregnes for forskellige værdier af K, og både Silhouette-plot og gennemsnitlige Silhouette-scorer undersøges for at finde det K, der maksimerer klyngekvaliteten.

Visualiseringer spiller endelig en central rolle i implementeringen. Følgende visualiseres:

- Selve dummy-dataene for at se den **underliggende klynge-struktur**;

- **WSS-plottet** for at identificere elbow-punktet;

- **Silhouette-plottet** for at vurdere klyngekvaliteten for forskellige K-værdier;

- **De endelige K-means-klynger** lagt oven på dummy-dataene for visuelt at verificere klyngeresultaterne og det valgte optimale K.

Hvilket parameter i funktionen make_blobs() styrer spredningen af datapunkter inden for hver klynge

Udforsk styrken ved skjulte mønstre med ikke-superviseret læring. Behersk de mest indflydelsesrige klyngealgoritmer, herunder K-Means, hierarkisk klyngedannelse, DBSCAN og Gaussiske blandingsmodeller. Lær at evaluere klyngekvalitet ved hjælp af WSS og Silhouette-scorer, håndtere forskellige afstandsmål og implementere robuste løsninger på virkelige datasæt. Opbyg færdigheder til at segmentere kunder og opdage strukturer i uetiketterede data ved brug af Scikit-learn.

Implementering på Dummy-Datasæt

Dummy-datasæt

K-means-implementering