Durchführung Hierarchischer Clusteranalyse
Ein clustermap ist eine Matrixdarstellung, die eine Heatmap mit hierarchischem Clustering kombiniert.
Während eine Standard-Heatmap Daten in einem festen Raster anzeigt, ordnet ein Clustermap die Zeilen und Spalten neu an, sodass ähnliche Werte nebeneinander liegen. Die baumartigen Diagramme an den Achsen werden Dendrogramme genannt und zeigen, wie die Datenpunkte gruppiert werden.
Wichtige Parameter
Zur Steuerung des Clusterings können folgende Parameter verwendet werden:
standard_scale: Standardisiert die Daten (0 für Zeilen, 1 für Spalten), sodass jedes Merkmal einen Mittelwert von 0 und eine Varianz von 1 hat. Dies ist entscheidend, wenn Variablen unterschiedliche Einheiten besitzen;metric: Das zu verwendende Distanzmaß (z. B.'euclidean','correlation'). Es bestimmt, was als "ähnlich" gilt;method: Der zu verwendende Verknüpfungsalgorithmus (z. B.'single','complete','average'). Er legt fest, wie die Cluster gebildet werden.
Beispiel
Hier ist ein Clustermap des Iris-Datensatzes. Beachten Sie, wie die Arten (Zeilen) automatisch zusammen gruppiert werden, da sie ähnliche Messwerte aufweisen.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analysiere die Fluggastdaten, um Ähnlichkeiten zwischen den Jahren zu identifizieren.
- Stil auf
'ticks'setzen. Hintergrundfarbe auf'seagreen'('figure.facecolor') ändern. - Clustermap mit dem umgeformten DataFrame
upd_dferstellen:
upd_dfals Daten übergeben.- Spalten durch Setzen von
standard_scaleauf1normalisieren.- Clustering-
methodauf'single'setzen. 'correlation'als Distanz-metricverwenden.
- Clustering-
- Werte in den Zellen anzeigen (
annot=True). - Wertebereich festlegen:
vmin=0undvmax=10. - Farbskala
'vlag'verwenden.
- Diagramm anzeigen.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 4.55
Durchführung Hierarchischer Clusteranalyse
Swipe um das Menü anzuzeigen
Ein clustermap ist eine Matrixdarstellung, die eine Heatmap mit hierarchischem Clustering kombiniert.
Während eine Standard-Heatmap Daten in einem festen Raster anzeigt, ordnet ein Clustermap die Zeilen und Spalten neu an, sodass ähnliche Werte nebeneinander liegen. Die baumartigen Diagramme an den Achsen werden Dendrogramme genannt und zeigen, wie die Datenpunkte gruppiert werden.
Wichtige Parameter
Zur Steuerung des Clusterings können folgende Parameter verwendet werden:
standard_scale: Standardisiert die Daten (0 für Zeilen, 1 für Spalten), sodass jedes Merkmal einen Mittelwert von 0 und eine Varianz von 1 hat. Dies ist entscheidend, wenn Variablen unterschiedliche Einheiten besitzen;metric: Das zu verwendende Distanzmaß (z. B.'euclidean','correlation'). Es bestimmt, was als "ähnlich" gilt;method: Der zu verwendende Verknüpfungsalgorithmus (z. B.'single','complete','average'). Er legt fest, wie die Cluster gebildet werden.
Beispiel
Hier ist ein Clustermap des Iris-Datensatzes. Beachten Sie, wie die Arten (Zeilen) automatisch zusammen gruppiert werden, da sie ähnliche Messwerte aufweisen.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analysiere die Fluggastdaten, um Ähnlichkeiten zwischen den Jahren zu identifizieren.
- Stil auf
'ticks'setzen. Hintergrundfarbe auf'seagreen'('figure.facecolor') ändern. - Clustermap mit dem umgeformten DataFrame
upd_dferstellen:
upd_dfals Daten übergeben.- Spalten durch Setzen von
standard_scaleauf1normalisieren.- Clustering-
methodauf'single'setzen. 'correlation'als Distanz-metricverwenden.
- Clustering-
- Werte in den Zellen anzeigen (
annot=True). - Wertebereich festlegen:
vmin=0undvmax=10. - Farbskala
'vlag'verwenden.
- Diagramm anzeigen.
Lösung
Danke für Ihr Feedback!
single