Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Implementierung mit Realem Datensatz | DBSCAN
Clusteranalyse

bookImplementierung mit Realem Datensatz

Sie verwenden den Mall-Kunden-Datensatz, der die folgenden Spalten enthält:

Folgende Schritte sollten vor der Clusterbildung durchgeführt werden:

  1. Daten laden: Mit pandas wird die CSV-Datei geladen;
  2. Relevante Merkmale auswählen: Es wird auf die Spalten 'Annual Income (k$)' und 'Spending Score (1-100)' fokussiert;
  3. Datenskalierung (wichtig für DBSCAN): Da DBSCAN Distanzberechnungen verwendet, ist es entscheidend, die Merkmale auf ähnliche Wertebereiche zu skalieren. Hierfür kann StandardScaler verwendet werden.

Interpretation

Der Code erstellt in diesem Fall 5 Cluster. Es ist wichtig, die resultierenden Cluster zu analysieren, um Erkenntnisse zur Kundensegmentierung zu gewinnen. Beispielsweise könnten Cluster folgende Gruppen repräsentieren:

  • Kunden mit hohem Einkommen und hohem Ausgabeverhalten;

  • Kunden mit hohem Einkommen und geringem Ausgabeverhalten;

  • Kunden mit geringem Einkommen und hohem Ausgabeverhalten;

  • Kunden mit geringem Einkommen und geringem Ausgabeverhalten;

  • Kunden mit mittlerem Einkommen und mittlerem Ausgabeverhalten.

Abschließende Bemerkungen

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

bookImplementierung mit Realem Datensatz

Swipe um das Menü anzuzeigen

Sie verwenden den Mall-Kunden-Datensatz, der die folgenden Spalten enthält:

Folgende Schritte sollten vor der Clusterbildung durchgeführt werden:

  1. Daten laden: Mit pandas wird die CSV-Datei geladen;
  2. Relevante Merkmale auswählen: Es wird auf die Spalten 'Annual Income (k$)' und 'Spending Score (1-100)' fokussiert;
  3. Datenskalierung (wichtig für DBSCAN): Da DBSCAN Distanzberechnungen verwendet, ist es entscheidend, die Merkmale auf ähnliche Wertebereiche zu skalieren. Hierfür kann StandardScaler verwendet werden.

Interpretation

Der Code erstellt in diesem Fall 5 Cluster. Es ist wichtig, die resultierenden Cluster zu analysieren, um Erkenntnisse zur Kundensegmentierung zu gewinnen. Beispielsweise könnten Cluster folgende Gruppen repräsentieren:

  • Kunden mit hohem Einkommen und hohem Ausgabeverhalten;

  • Kunden mit hohem Einkommen und geringem Ausgabeverhalten;

  • Kunden mit geringem Einkommen und hohem Ausgabeverhalten;

  • Kunden mit geringem Einkommen und geringem Ausgabeverhalten;

  • Kunden mit mittlerem Einkommen und mittlerem Ausgabeverhalten.

Abschließende Bemerkungen

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 5
some-alt