Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Hiërarchische Clustering Uitvoeren | Sectie
Practice
Projects
Quizzes & Challenges
Quizzen
Challenges
/
Statistische Visualisatie Met Seaborn

bookHiërarchische Clustering Uitvoeren

Een clustermap is een matrixplot die een heatmap combineert met hiërarchische clustering.

Waar een standaard heatmap gegevens in een vaste raster toont, herordent een clustermap de rijen en kolommen zodat vergelijkbare waarden naast elkaar worden geplaatst. De boomachtige diagrammen op de assen worden dendrogrammen genoemd en tonen hoe de datapunten zijn gegroepeerd.

Belangrijke parameters

Om te bepalen hoe de clustering werkt, kunnen deze parameters worden gebruikt:

  • standard_scale: standaardiseert de gegevens (0 voor rijen, 1 voor kolommen) zodat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft. Dit is essentieel wanneer variabelen verschillende eenheden hebben;
  • metric: de te gebruiken afstandsmaat (bijv. 'euclidean', 'correlation'). Dit bepaalt wat "vergelijkbaar" betekent;
  • method: het te gebruiken koppelingsalgoritme (bijv. 'single', 'complete', 'average'). Dit bepaalt hoe de clusters worden gegroepeerd.

Voorbeeld

Hier is een clustermap van de Iris dataset. Merk op hoe de soorten (rijen) automatisch bij elkaar worden gegroepeerd omdat ze vergelijkbare metingen hebben.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Taak

Swipe to start coding

Analyseer de gegevens van vliegtuigpassagiers om overeenkomsten tussen jaren te vinden.

  1. Stel de stijl in op 'ticks'. Wijzig de achtergrondkleur naar 'seagreen' ('figure.facecolor').
  2. Maak een clustermap met behulp van de herschikte upd_df DataFrame:
  • Gebruik upd_df als data.
  • Normaliseer de kolommen door standard_scale op 1 te zetten.
  • Gebruik de 'single' clustering method.
  • Gebruik 'correlation' als afstandsmetric.
  • Toon waarden in de cellen (annot=True).
  • Stel de waardelimieten in: vmin=0 en vmax=10.
  • Gebruik de 'vlag' kleurmap.
  1. Toon de visualisatie.

Oplossing

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 17
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

close

bookHiërarchische Clustering Uitvoeren

Veeg om het menu te tonen

Een clustermap is een matrixplot die een heatmap combineert met hiërarchische clustering.

Waar een standaard heatmap gegevens in een vaste raster toont, herordent een clustermap de rijen en kolommen zodat vergelijkbare waarden naast elkaar worden geplaatst. De boomachtige diagrammen op de assen worden dendrogrammen genoemd en tonen hoe de datapunten zijn gegroepeerd.

Belangrijke parameters

Om te bepalen hoe de clustering werkt, kunnen deze parameters worden gebruikt:

  • standard_scale: standaardiseert de gegevens (0 voor rijen, 1 voor kolommen) zodat elk kenmerk een gemiddelde van 0 en een variantie van 1 heeft. Dit is essentieel wanneer variabelen verschillende eenheden hebben;
  • metric: de te gebruiken afstandsmaat (bijv. 'euclidean', 'correlation'). Dit bepaalt wat "vergelijkbaar" betekent;
  • method: het te gebruiken koppelingsalgoritme (bijv. 'single', 'complete', 'average'). Dit bepaalt hoe de clusters worden gegroepeerd.

Voorbeeld

Hier is een clustermap van de Iris dataset. Merk op hoe de soorten (rijen) automatisch bij elkaar worden gegroepeerd omdat ze vergelijkbare metingen hebben.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Taak

Swipe to start coding

Analyseer de gegevens van vliegtuigpassagiers om overeenkomsten tussen jaren te vinden.

  1. Stel de stijl in op 'ticks'. Wijzig de achtergrondkleur naar 'seagreen' ('figure.facecolor').
  2. Maak een clustermap met behulp van de herschikte upd_df DataFrame:
  • Gebruik upd_df als data.
  • Normaliseer de kolommen door standard_scale op 1 te zetten.
  • Gebruik de 'single' clustering method.
  • Gebruik 'correlation' als afstandsmetric.
  • Toon waarden in de cellen (annot=True).
  • Stel de waardelimieten in: vmin=0 en vmax=10.
  • Gebruik de 'vlag' kleurmap.
  1. Toon de visualisatie.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 17
single

single

some-alt