Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utförande av Hierarkisk Klustring | Sektion
Statistisk Visualisering med Seaborn

bookUtförande av Hierarkisk Klustring

En clustermap är en matrisgraf som kombinerar en värmekarta med hierarkisk klustring.

Medan en vanlig värmekarta visar data i ett fast rutnät, omordnar en clustermap rader och kolumner för att placera liknande värden intill varandra. De trädliknande diagrammen på axlarna kallas dendrogram och visar hur datapunkterna grupperas.

Viktiga parametrar

För att styra hur klustringen fungerar kan du använda dessa parametrar:

  • standard_scale: standardiserar data (0 för rader, 1 för kolumner) så att varje variabel har medelvärde 0 och varians 1. Detta är avgörande när variabler har olika enheter;
  • metric: avståndsmåttet som används (t.ex. 'euclidean', 'correlation'). Det avgör vad "liknande" betyder;
  • method: länkage-algoritmen som används (t.ex. 'single', 'complete', 'average'). Det avgör hur kluster grupperas.

Exempel

Här är en clustermap av Iris-datasetet. Notera hur arterna (raderna) automatiskt grupperas eftersom de har liknande mätvärden.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Uppgift

Swipe to start coding

Analysera flygpassagerardata för att hitta likheter mellan år.

  1. Ställ in stilen på 'ticks'. Ändra bakgrundsfärgen till 'seagreen' ('figure.facecolor').
  2. Skapa en clustermap med den omformade upd_df DataFrame:
  • Ange upd_df som data.
  • Normalisera kolumnerna genom att sätta standard_scale till 1.
  • Ställ in 'single' till method.
  • Ställ in 'correlation' till metric.
  • Visa värden i cellerna (annot=True).
  • Ange värdegränser: vmin=0 och vmax=10.
  • Använd färgkartan 'vlag'.
  1. Visa diagrammet.

Lösning

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 17
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

close

bookUtförande av Hierarkisk Klustring

Svep för att visa menyn

En clustermap är en matrisgraf som kombinerar en värmekarta med hierarkisk klustring.

Medan en vanlig värmekarta visar data i ett fast rutnät, omordnar en clustermap rader och kolumner för att placera liknande värden intill varandra. De trädliknande diagrammen på axlarna kallas dendrogram och visar hur datapunkterna grupperas.

Viktiga parametrar

För att styra hur klustringen fungerar kan du använda dessa parametrar:

  • standard_scale: standardiserar data (0 för rader, 1 för kolumner) så att varje variabel har medelvärde 0 och varians 1. Detta är avgörande när variabler har olika enheter;
  • metric: avståndsmåttet som används (t.ex. 'euclidean', 'correlation'). Det avgör vad "liknande" betyder;
  • method: länkage-algoritmen som används (t.ex. 'single', 'complete', 'average'). Det avgör hur kluster grupperas.

Exempel

Här är en clustermap av Iris-datasetet. Notera hur arterna (raderna) automatiskt grupperas eftersom de har liknande mätvärden.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Uppgift

Swipe to start coding

Analysera flygpassagerardata för att hitta likheter mellan år.

  1. Ställ in stilen på 'ticks'. Ändra bakgrundsfärgen till 'seagreen' ('figure.facecolor').
  2. Skapa en clustermap med den omformade upd_df DataFrame:
  • Ange upd_df som data.
  • Normalisera kolumnerna genom att sätta standard_scale till 1.
  • Ställ in 'single' till method.
  • Ställ in 'correlation' till metric.
  • Visa värden i cellerna (annot=True).
  • Ange värdegränser: vmin=0 och vmax=10.
  • Använd färgkartan 'vlag'.
  1. Visa diagrammet.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 17
single

single

some-alt