Summary  
This chapter demonstrates how to generate synthetic data and implement k-means clustering in code, including fitting the model, computing WSS (inertia) and Silhouette scores to choose the optimal number of clusters, and visualizing the resulting clusters and centroids.  

General domain of usage  
Unsupervised machine learning (cluster analysis)

Du vil nå gå gjennom et praktisk eksempel på bruk av **K-means klynging**. For dette formålet vil du bruke et **dummy-datasett**. Dummy-datasett er kunstig genererte datasett som ofte brukes til demonstrasjon og læring. De gir oss mulighet til å **kontrollere egenskapene til dataene** og tydelig observere hvordan algoritmer som K-means fungerer.

## Dummy-datasett

Til denne demonstrasjonen vil vi opprette et dummy-datasett ved hjelp av funksjonen `make_blobs()`. Denne funksjonen er utmerket for å generere klynger av datapunkter på en **visuelt tydelig** og **kontrollerbar** måte. Vi vil generere data med følgende egenskaper:

-  **Antall eksempler**: vi oppretter et datasett med `300` datapunkter;

- **Antall sentre**: vi setter antall faktiske klynger til `4`. Dette betyr at dummy-dataene er utformet for å ha fire distinkte grupper;

- **Klynge standardavvik**: vi kontrollerer spredningen av datapunkter innen hver klynge, og setter den til `0.60` for relativt kompakte klynger;

- **Tilfeldig tilstand**: vi bruker en fast `random_state` for reproduserbarhet, slik at datagenereringen er konsistent hver gang du kjører koden.

```python
X, y_true = make_blobs(n_samples=300,
                       centers=4,
                       cluster_std=0.60,
                       random_state=0)
```

## K-means-implementering

Når dette dummy-datasettet er opprettet, vil vi deretter anvende **K-means-algoritmen**. Vi vil utforske hvordan K-means forsøker å **dele opp disse dataene i klynger** basert på prinsippene du har lært i tidligere kapitler.

K-means kan initialiseres og trenes slik i Python:

```python
kmeans = KMeans(n_clusters=k, random_state=42) 
kmeans.fit(X)
``` 

For å bestemme det **optimale antallet klynger** for disse dataene, vil vi benytte metodene som er diskutert i tidligere kapitler:

- **WSS-metoden**: vi beregner Within-Sum-of-Squares for ulike verdier av K og analyserer albueplottet for å identifisere et mulig optimalt K;

- **Silhouette score-metoden**: vi beregner Silhouette Score for ulike verdier av K og undersøker Silhouette-plottet og gjennomsnittlige Silhouette-score for å finne det K som maksimerer klyngekvaliteten.

Til slutt vil **visualiseringer** spille en avgjørende rolle i implementeringen. Vi vil visualisere:

- Selve dummy-dataene, for å se den **innebygde klynge-strukturen**;

- **WSS-plottet**, for å identifisere albuepunktet;

- **Silhouette-plottet**, for å vurdere klyngekvaliteten for ulike K-verdier;

- **De endelige K-means-klyngene** lagt over dummy-dataene, for å visuelt verifisere klyngeringsresultatene og det valgte optimale K.

Hvilken parameter i funksjonen make_blobs() styrer spredningen av datapunkter innenfor hver klynge

Utforsk kraften i skjulte mønstre med usupervisert læring. Behersk de mest innflytelsesrike klyngealgoritmene, inkludert K-Means, hierarkisk klynging, DBSCAN og Gaussiske blandingsmodeller. Lær å evaluere klyngekvalitet ved hjelp av WSS og Silhouette-score, håndtere ulike avstandsmål og implementere robuste løsninger på virkelige datasett. Bygg ferdigheter for å segmentere kunder og oppdage strukturer i umerkede data ved bruk av Scikit-learn.

Implementering på Dummy-datasett

Dummy-datasett

K-means-implementering