Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Durchführung Hierarchischer Clusteranalyse | Abschnitt
Statistische Visualisierung mit Seaborn

bookDurchführung Hierarchischer Clusteranalyse

Ein clustermap ist eine Matrixdarstellung, die eine Heatmap mit hierarchischem Clustering kombiniert.

Während eine Standard-Heatmap Daten in einem festen Raster anzeigt, ordnet ein Clustermap die Zeilen und Spalten neu an, sodass ähnliche Werte nebeneinander liegen. Die baumartigen Diagramme an den Achsen werden Dendrogramme genannt und zeigen, wie die Datenpunkte gruppiert werden.

Wichtige Parameter

Zur Steuerung des Clusterings können folgende Parameter verwendet werden:

  • standard_scale: Standardisiert die Daten (0 für Zeilen, 1 für Spalten), sodass jedes Merkmal einen Mittelwert von 0 und eine Varianz von 1 hat. Dies ist entscheidend, wenn Variablen unterschiedliche Einheiten besitzen;
  • metric: Das zu verwendende Distanzmaß (z. B. 'euclidean', 'correlation'). Es bestimmt, was als "ähnlich" gilt;
  • method: Der zu verwendende Verknüpfungsalgorithmus (z. B. 'single', 'complete', 'average'). Er legt fest, wie die Cluster gebildet werden.

Beispiel

Hier ist ein Clustermap des Iris-Datensatzes. Beachten Sie, wie die Arten (Zeilen) automatisch zusammen gruppiert werden, da sie ähnliche Messwerte aufweisen.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Aufgabe

Swipe to start coding

Analysiere die Fluggastdaten, um Ähnlichkeiten zwischen den Jahren zu identifizieren.

  1. Stil auf 'ticks' setzen. Hintergrundfarbe auf 'seagreen' ('figure.facecolor') ändern.
  2. Clustermap mit dem umgeformten DataFrame upd_df erstellen:
  • upd_df als Daten übergeben.
  • Spalten durch Setzen von standard_scale auf 1 normalisieren.
    • Clustering-method auf 'single' setzen.
    • 'correlation' als Distanz-metric verwenden.
  • Werte in den Zellen anzeigen (annot=True).
  • Wertebereich festlegen: vmin=0 und vmax=10.
  • Farbskala 'vlag' verwenden.
  1. Diagramm anzeigen.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 17
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

bookDurchführung Hierarchischer Clusteranalyse

Swipe um das Menü anzuzeigen

Ein clustermap ist eine Matrixdarstellung, die eine Heatmap mit hierarchischem Clustering kombiniert.

Während eine Standard-Heatmap Daten in einem festen Raster anzeigt, ordnet ein Clustermap die Zeilen und Spalten neu an, sodass ähnliche Werte nebeneinander liegen. Die baumartigen Diagramme an den Achsen werden Dendrogramme genannt und zeigen, wie die Datenpunkte gruppiert werden.

Wichtige Parameter

Zur Steuerung des Clusterings können folgende Parameter verwendet werden:

  • standard_scale: Standardisiert die Daten (0 für Zeilen, 1 für Spalten), sodass jedes Merkmal einen Mittelwert von 0 und eine Varianz von 1 hat. Dies ist entscheidend, wenn Variablen unterschiedliche Einheiten besitzen;
  • metric: Das zu verwendende Distanzmaß (z. B. 'euclidean', 'correlation'). Es bestimmt, was als "ähnlich" gilt;
  • method: Der zu verwendende Verknüpfungsalgorithmus (z. B. 'single', 'complete', 'average'). Er legt fest, wie die Cluster gebildet werden.

Beispiel

Hier ist ein Clustermap des Iris-Datensatzes. Beachten Sie, wie die Arten (Zeilen) automatisch zusammen gruppiert werden, da sie ähnliche Messwerte aufweisen.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Aufgabe

Swipe to start coding

Analysiere die Fluggastdaten, um Ähnlichkeiten zwischen den Jahren zu identifizieren.

  1. Stil auf 'ticks' setzen. Hintergrundfarbe auf 'seagreen' ('figure.facecolor') ändern.
  2. Clustermap mit dem umgeformten DataFrame upd_df erstellen:
  • upd_df als Daten übergeben.
  • Spalten durch Setzen von standard_scale auf 1 normalisieren.
    • Clustering-method auf 'single' setzen.
    • 'correlation' als Distanz-metric verwenden.
  • Werte in den Zellen anzeigen (annot=True).
  • Wertebereich festlegen: vmin=0 und vmax=10.
  • Farbskala 'vlag' verwenden.
  1. Diagramm anzeigen.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 17
single

single

some-alt