Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Implementierung auf einem realen Datensatz | Abschnitt
Grundlagen des Unüberwachten Lernens

bookImplementierung auf einem realen Datensatz

Sie verwenden den Mall-Kunden-Datensatz, der die folgenden Spalten enthält:

Folgende Schritte sollten vor dem Clustering durchgeführt werden:

  1. Daten laden: Mit pandas wird die CSV-Datei geladen;
  2. Relevante Merkmale auswählen: Es wird auf die Spalten 'Annual Income (k$)' und 'Spending Score (1-100)' fokussiert;
  3. Datenskalierung (wichtig für DBSCAN): Da DBSCAN Distanzberechnungen verwendet, ist es entscheidend, die Merkmale auf ähnliche Wertebereiche zu skalieren. Hierfür kann StandardScaler verwendet werden.

Interpretation

Der Code erstellt in diesem Fall 5 Cluster. Es ist wichtig, die resultierenden Cluster zu analysieren, um Einblicke in die Kundensegmentierung zu gewinnen. Beispielsweise könnten Cluster folgende Gruppen repräsentieren:

  • Kunden mit hohem Einkommen und hohem Ausgabeverhalten;
  • Kunden mit hohem Einkommen und geringem Ausgabeverhalten;
  • Kunden mit geringem Einkommen und hohem Ausgabeverhalten;
  • Kunden mit geringem Einkommen und geringem Ausgabeverhalten;
  • Kunden mit mittlerem Einkommen und mittlerem Ausgabeverhalten.

Abschließende Bemerkungen

question mark

Welche Aussage beschreibt einen entscheidenden Vorteil der Verwendung von DBSCAN für das Clustering des Mall-Kundendatensatzes am besten?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 23

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookImplementierung auf einem realen Datensatz

Swipe um das Menü anzuzeigen

Sie verwenden den Mall-Kunden-Datensatz, der die folgenden Spalten enthält:

Folgende Schritte sollten vor dem Clustering durchgeführt werden:

  1. Daten laden: Mit pandas wird die CSV-Datei geladen;
  2. Relevante Merkmale auswählen: Es wird auf die Spalten 'Annual Income (k$)' und 'Spending Score (1-100)' fokussiert;
  3. Datenskalierung (wichtig für DBSCAN): Da DBSCAN Distanzberechnungen verwendet, ist es entscheidend, die Merkmale auf ähnliche Wertebereiche zu skalieren. Hierfür kann StandardScaler verwendet werden.

Interpretation

Der Code erstellt in diesem Fall 5 Cluster. Es ist wichtig, die resultierenden Cluster zu analysieren, um Einblicke in die Kundensegmentierung zu gewinnen. Beispielsweise könnten Cluster folgende Gruppen repräsentieren:

  • Kunden mit hohem Einkommen und hohem Ausgabeverhalten;
  • Kunden mit hohem Einkommen und geringem Ausgabeverhalten;
  • Kunden mit geringem Einkommen und hohem Ausgabeverhalten;
  • Kunden mit geringem Einkommen und geringem Ausgabeverhalten;
  • Kunden mit mittlerem Einkommen und mittlerem Ausgabeverhalten.

Abschließende Bemerkungen

question mark

Welche Aussage beschreibt einen entscheidenden Vorteil der Verwendung von DBSCAN für das Clustering des Mall-Kundendatensatzes am besten?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 23
some-alt