Hiërarchische Clustering Uitvoeren
Een clustermap is een matrixplot die een heatmap combineert met hiërarchische clustering.
Waar een standaard heatmap gegevens in een vaste raster toont, herordent een clustermap de rijen en kolommen zodat vergelijkbare waarden naast elkaar worden geplaatst. De boomachtige diagrammen op de assen worden dendrogrammen genoemd en tonen hoe de datapunten zijn gegroepeerd.
Belangrijke parameters
Om te bepalen hoe de clustering werkt, kunnen deze parameters worden gebruikt:
standard_scale: standaardiseert de gegevens (0 voor rijen, 1 voor kolommen) zodat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft. Dit is essentieel wanneer variabelen verschillende eenheden hebben;metric: de te gebruiken afstandsmaat (bijv.'euclidean','correlation'). Dit bepaalt wat "vergelijkbaar" betekent;method: het te gebruiken koppelingsalgoritme (bijv.'single','complete','average'). Dit bepaalt hoe de clusters worden gegroepeerd.
Voorbeeld
Hier is een clustermap van de Iris dataset. Merk op hoe de soorten (rijen) automatisch bij elkaar worden gegroepeerd omdat ze vergelijkbare metingen hebben.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analyseer de gegevens van vliegtuigpassagiers om overeenkomsten tussen jaren te vinden.
- Stel de stijl in op
'ticks'. Wijzig de achtergrondkleur naar'seagreen'('figure.facecolor'). - Maak een clustermap met behulp van de herschikte
upd_dfDataFrame:
- Gebruik
upd_dfals data. - Normaliseer de kolommen door
standard_scaleop1te zetten. - Gebruik de
'single'clusteringmethod. - Gebruik
'correlation'als afstandsmetric. - Toon waarden in de cellen (
annot=True). - Stel de waardelimieten in:
vmin=0envmax=10. - Gebruik de
'vlag'kleurmap.
- Toon de visualisatie.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Geweldig!
Completion tarief verbeterd naar 4.55
Hiërarchische Clustering Uitvoeren
Veeg om het menu te tonen
Een clustermap is een matrixplot die een heatmap combineert met hiërarchische clustering.
Waar een standaard heatmap gegevens in een vaste raster toont, herordent een clustermap de rijen en kolommen zodat vergelijkbare waarden naast elkaar worden geplaatst. De boomachtige diagrammen op de assen worden dendrogrammen genoemd en tonen hoe de datapunten zijn gegroepeerd.
Belangrijke parameters
Om te bepalen hoe de clustering werkt, kunnen deze parameters worden gebruikt:
standard_scale: standaardiseert de gegevens (0 voor rijen, 1 voor kolommen) zodat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft. Dit is essentieel wanneer variabelen verschillende eenheden hebben;metric: de te gebruiken afstandsmaat (bijv.'euclidean','correlation'). Dit bepaalt wat "vergelijkbaar" betekent;method: het te gebruiken koppelingsalgoritme (bijv.'single','complete','average'). Dit bepaalt hoe de clusters worden gegroepeerd.
Voorbeeld
Hier is een clustermap van de Iris dataset. Merk op hoe de soorten (rijen) automatisch bij elkaar worden gegroepeerd omdat ze vergelijkbare metingen hebben.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analyseer de gegevens van vliegtuigpassagiers om overeenkomsten tussen jaren te vinden.
- Stel de stijl in op
'ticks'. Wijzig de achtergrondkleur naar'seagreen'('figure.facecolor'). - Maak een clustermap met behulp van de herschikte
upd_dfDataFrame:
- Gebruik
upd_dfals data. - Normaliseer de kolommen door
standard_scaleop1te zetten. - Gebruik de
'single'clusteringmethod. - Gebruik
'correlation'als afstandsmetric. - Toon waarden in de cellen (
annot=True). - Stel de waardelimieten in:
vmin=0envmax=10. - Gebruik de
'vlag'kleurmap.
- Toon de visualisatie.
Oplossing
Bedankt voor je feedback!
single