Summary  
This chapter demonstrates how to preprocess numeric features, apply the DBSCAN density-based clustering algorithm with hyperparameter tuning (eps and min_samples), and visualize resulting clusters and outliers on a real dataset.  

General domain of usage  
Customer segmentation in retail marketing

Sie verwenden den **Mall-Kunden**-Datensatz, der die folgenden Spalten enthält:

Folgende Schritte sollten vor dem Clustering durchgeführt werden:
     
1.  **Daten laden:** Mit `pandas` wird die CSV-Datei geladen;
2.  **Relevante Merkmale auswählen:** Es wird auf die Spalten `'Annual Income (k$)'` und `'Spending Score (1-100)'` fokussiert;
3.  **Datenskalierung (wichtig für DBSCAN):** Da DBSCAN Distanzberechnungen verwendet, ist es entscheidend, die Merkmale auf ähnliche Wertebereiche zu skalieren. Hierfür kann `StandardScaler` verwendet werden.

## Interpretation 

Der Code erstellt in diesem Fall **5 Cluster**. Es ist wichtig, die resultierenden Cluster zu analysieren, um Einblicke in die **Kundensegmentierung** zu gewinnen. Beispielsweise könnten Cluster folgende Gruppen repräsentieren: 

- Kunden mit hohem Einkommen und hohem Ausgabeverhalten;     
- Kunden mit hohem Einkommen und geringem Ausgabeverhalten;    
- Kunden mit geringem Einkommen und hohem Ausgabeverhalten;     
- Kunden mit geringem Einkommen und geringem Ausgabeverhalten; 
- Kunden mit mittlerem Einkommen und mittlerem Ausgabeverhalten.

Welche Aussage beschreibt einen entscheidenden Vorteil der Verwendung von DBSCAN für das Clustering des Mall-Kundendatensatzes am besten?

Entdecken Sie die Kraft verborgener Muster mit unüberwachtem Lernen. Beherrschen Sie die einflussreichsten Clustering-Algorithmen, darunter K-Means, hierarchisches Clustering, DBSCAN und Gaußsche Mischmodelle. Lernen Sie, die Clusterqualität mit WSS- und Silhouette-Werten zu bewerten, verschiedene Distanzmaße zu handhaben und robuste Lösungen auf realen Datensätzen zu implementieren. Entwickeln Sie Fähigkeiten zur Kundensegmentierung und zur Entdeckung von Strukturen in nicht gelabelten Daten mit Scikit-learn.

Implementierung auf einem realen Datensatz

Interpretation

Abschließende Bemerkungen