Summary  
This chapter demonstrates how to apply the DBSCAN density-based clustering algorithm by scaling features, selecting hyperparameters (epsilon and minimum samples), fitting the model to data, detecting outliers, and visualizing the resulting clusters.  

General domain of usage  
Customer segmentation

Verwendung des **Mall-Kunden**-Datensatzes, der die folgenden Spalten enthält:

Eine eindeutige Kennung, die jedem Kunden im Datensatz zugewiesen wird.

Das Geschlecht des Kunden (Male oder Female).

Das jährliche Einkommen des Kunden in Tausend Dollar.

Ein vom Einkaufszentrum vergebener Wert basierend auf dem Kundenverhalten und der Ausgabenstruktur, wobei 1 niedrig und 100 hoch ist.

Folgende Schritte sollten vor der Clusterbildung durchgeführt werden:
     
1.  **Daten laden:** Verwendung von `pandas` zum Laden der CSV-Datei;
2.  **Relevante Merkmale auswählen:** Fokus auf die Spalten `'Annual Income (k$)'` und `'Spending Score (1-100)'`;
3.  **Datenskalierung (wichtig für DBSCAN):** Da DBSCAN Distanzberechnungen verwendet, ist es entscheidend, die Merkmale auf ähnliche Wertebereiche zu skalieren. Hierfür kann `StandardScaler` verwendet werden.

Datensatz herunterladen

## Interpretation 

Der Code erstellt in diesem Fall **5 Cluster**. Es ist wichtig, die resultierenden Cluster zu analysieren, um Einblicke in die **Kundensegmentierung** zu gewinnen. Beispielsweise könnten Cluster folgende Gruppen repräsentieren: 

- Kunden mit hohem Einkommen und hohen Ausgaben;     
- Kunden mit hohem Einkommen und niedrigen Ausgaben;    
- Kunden mit niedrigem Einkommen und hohen Ausgaben;     
- Kunden mit niedrigem Einkommen und niedrigen Ausgaben; 
- Kunden mit mittlerem Einkommen und mittleren Ausgaben.


DBSCAN eignet sich hervorragend zur Identifikation von Clustern beliebiger Form und zum Umgang mit Ausreißern, was es für viele reale Anwendungen prädestiniert, in denen Daten nicht sauber in sphärische Cluster gruppiert sind.

Die Parameterauswahl kann herausfordernd sein. Bei Datensätzen mit sehr unterschiedlichen Dichten im Datenraum kann die Leistung eingeschränkt sein, jedoch existieren Varianten wie HDBSCAN, die hier besser funktionieren können.

DBSCAN eignet sich, wenn nicht-sphärische Cluster vermutet werden, Ausreißer erkannt werden sollen und die Anzahl der Cluster nicht vorab festgelegt werden soll.

Alternativen wie K-means in Betracht ziehen, wenn die Cluster wahrscheinlich sphärisch sind, ein sehr schneller Algorithmus benötigt wird oder die Anzahl der Cluster im Voraus bekannt ist.

Code für dieses Kapitel herunterladen

Abschnittszusammenfassung herunterladen

Erwerben Sie ein fundiertes Verständnis der Clusteranalyse, einer zentralen Methode des unüberwachten Lernens zur Erkennung von Mustern in nicht gekennzeichneten Daten. Lernen Sie die Grundlagen von K-Means, hierarchischem Clustering, DBSCAN und GMMs kennen und sammeln Sie praktische Erfahrungen mit realen Datensätzen, um Sicherheit bei der Anwendung von Clustering auf reale Problemstellungen zu gewinnen.

Tauchen Sie in die Grundlagen der Clusteranalyse ein und erfahren Sie, wie sie sich von der Klassifikation unterscheidet. Erkunden Sie wesentliche Algorithmen, Werkzeuge und Bibliotheken, die diese Methode des unbeaufsichtigten Lernens unterstützen, um verborgene Muster in Daten zu erkennen.

Erwerben Sie ein fundiertes Verständnis der wichtigsten Vorverarbeitungstechniken, die eine effektive Clusterbildung gewährleisten. Erfahren Sie, wie fehlende Werte behandelt, kategoriale Merkmale codiert, Daten normalisiert und geeignete Distanzmaße sowie Verknüpfungen ausgewählt werden, um die Genauigkeit der Clusterbildung zu erhöhen.

Beherrschen der Fähigkeiten zur effektiven Anwendung des K-Means-Clusterings. Verständnis der Funktionsweise des Algorithmus. Bestimmung der optimalen Clusteranzahl. Praktische Erfahrung durch Implementierung von K-Means auf synthetischen und realen Datensätzen.

Erkunden Sie die Grundlagen des hierarchischen Clusterings und erfahren Sie, wie Daten mithilfe von Dendrogrammen in sinnvolle Cluster gruppiert werden. Sicherheit beim Erkennen der optimalen Clusteranzahl und Anwendung der Methode auf synthetische sowie reale Datensätze.

Erfahren Sie, wie DBSCAN bei der Erkennung von Clustern unterschiedlicher Formen und der Handhabung von Ausreißern in Daten überzeugt. Verstehen Sie die Mechanismen dieses dichtebasierten Algorithmus, die Zuordnung von Punkten zu Clustern und die Anwendung auf synthetische sowie reale Datensätze.

Fundierte Kenntnisse über Gaußsche Mischmodelle und deren Verwendung von Wahrscheinlichkeiten zur Modellierung komplexer Clusterformen. Prinzipien der Gaußschen Verteilung. Funktionsweise von GMMs. Anwendung auf Dummy- und Realweltdaten zur Festigung des Verständnisses.

Implementierung an Einem Realen Datensatz

Interpretation

Abschließende Bemerkungen