Summary  
This chapter demonstrates how to implement and tune the DBSCAN density-based clustering algorithm, illustrating how the `eps` and `min_samples` hyperparameters affect cluster formation and how core points, border points, and noise are identified.  

General domain of usage  
Unsupervised learning (data clustering)

Du opretter to datasæt for at demonstrere DBSCAN's styrker:

- **Moons:** to sammenflettede halvcirkler;
- **Circles:** en lille cirkel inden i en større cirkel.

Algoritmen er som følger:

1.  Instansiering af `DBSCAN`-objektet med angivelse af `eps` og `min_samples`;

2.  Modellens tilpasning til dine data;

3.  Visualisering af resultaterne ved at plotte **datapunkterne** og farve dem i henhold til deres tildelte **klyngeetiketter**.

## Justering af hyperparametre

Valget af `eps` og `min_samples` har stor indflydelse på klyngeresultatet. Prøv forskellige værdier for at finde det, der fungerer bedst for dine data. For eksempel, hvis `eps` er for stor, kan alle punkter ende i **én enkelt klynge**. Hvis `eps` er for lille, kan mange punkter blive klassificeret som **støj**. Du kan også skalere funktionerne.

Download koden til dette kapitel

Opnå en solid forståelse af klyngeanalyse, en central ikke-superviseret læringsteknik til at afdække mønstre i uetiketterede data. Udforsk det grundlæggende i K-Means, Hierarkisk Klyngedannelse, DBSCAN og GMM'er, og få praktisk erfaring med rigtige datasæt for at opbygge tillid til anvendelse af klyngeanalyse på virkelige problemer.

Dyk ned i de grundlæggende principper for klyngering og opdag, hvordan det adskiller sig fra klassifikation. Udforsk essentielle algoritmer, værktøjer og biblioteker, der driver denne usuperviserede læringsteknik til at afdække skjulte mønstre i data.

Opnå et solidt kendskab til centrale forbehandlingsteknikker, der sikrer effektiv klyngeanalyse. Håndtering af manglende værdier, kodning af kategoriske variable, normalisering af data samt valg af passende afstandsmål og koblinger for at øge nøjagtigheden af klyngeanalysen.

Opnå færdighederne til effektiv anvendelse af K-Means klyngedannelse. Forstå algoritmens funktion, fastlæg det optimale antal klynger, og få praktisk erfaring med implementering af K-Means på både syntetiske og virkelige datasæt.

Udforsk det grundlæggende i hierarkisk klyngedannelse og lær, hvordan data grupperes i meningsfulde klynger ved hjælp af dendrogrammer. Opnå fortrolighed med at identificere det optimale antal klynger og implementere teknikken på både syntetiske og virkelige datasæt.

Opdag, hvordan DBSCAN udmærker sig ved at identificere klynger med varierende former og håndtere støj i data. Forstå mekanismerne bag denne tæthedsbaserede algoritme, metoder til at tildele punkter til klynger samt anvendelse på både syntetiske og virkelige datasæt med sikkerhed.

Opnå et solidt kendskab til Gaussiske Mixture Models og hvordan de anvender sandsynlighed til at modellere komplekse klyngestrukturer. Gennemgå principperne for Gaussisk fordeling, undersøg hvordan GMM'er fungerer, og opbyg fortrolighed ved at anvende dem på både dummy- og virkelige data.

Implementering på Dummy-Datasæt

Justering af hyperparametre

Implementering på Dummy-Datasæt

Justering af hyperparametre