Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Hierarkkisen Klusteroinnin Suorittaminen | Osio
Tilastollinen Visualisointi Seabornilla

bookHierarkkisen Klusteroinnin Suorittaminen

clustermap on matriisikaavio, joka yhdistää lämpökartan ja hierarkkisen klusteroinnin.

Tavallinen lämpökartta näyttää datan kiinteässä ruudukossa, kun taas clustermap järjestelee uudelleen rivit ja sarakkeet siten, että samankaltaiset arvot ovat vierekkäin. Akselien puumaiset kaaviot ovat nimeltään dendrogrammit, ja ne osoittavat, miten havaintopisteet ryhmitellään.

Keskeiset parametrit

Klusteroinnin hallintaan voidaan käyttää seuraavia parametreja:

  • standard_scale: standardoi datan (0 riveille, 1 sarakkeille) siten, että jokaisella muuttujalla on keskiarvo 0 ja varianssi 1. Tämä on tärkeää, kun muuttujilla on eri yksiköt;
  • metric: käytettävä etäisyysmitta (esim. 'euclidean', 'correlation'). Tämä määrittää, mitä "samankaltaisuus" tarkoittaa;
  • method: käytettävä linkitysalgoritmi (esim. 'single', 'complete', 'average'). Tämä määrittää, miten klusterit muodostetaan.

Esimerkki

Tässä on Iris-aineiston clustermap. Huomaa, kuinka lajit (rivit) ryhmitellään automaattisesti yhteen, koska niillä on samankaltaiset mittaukset.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Tehtävä

Swipe to start coding

Analysoi lentomatkustajien dataa löytääksesi samankaltaisuuksia vuosien välillä.

  1. Aseta tyyli arvoksi 'ticks'. Vaihda taustaväriksi 'seagreen' ('figure.facecolor').
  2. Luo clustermap käyttäen muunnettua upd_df DataFramea:
  • Käytä upd_df datana.
  • Normalisoi sarakkeet asettamalla standard_scale arvoksi 1.
  • Käytä 'single' klusterointimenetelmää (method).
  • Käytä etäisyysmittana 'correlation' (metric).
  • Näytä arvot soluissa (annot=True).
  • Aseta arvorajat: vmin=0 ja vmax=10.
  • Käytä 'vlag' väriteemaa.
  1. Näytä kuvaaja.

Ratkaisu

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 17
single

single

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

close

bookHierarkkisen Klusteroinnin Suorittaminen

Pyyhkäise näyttääksesi valikon

clustermap on matriisikaavio, joka yhdistää lämpökartan ja hierarkkisen klusteroinnin.

Tavallinen lämpökartta näyttää datan kiinteässä ruudukossa, kun taas clustermap järjestelee uudelleen rivit ja sarakkeet siten, että samankaltaiset arvot ovat vierekkäin. Akselien puumaiset kaaviot ovat nimeltään dendrogrammit, ja ne osoittavat, miten havaintopisteet ryhmitellään.

Keskeiset parametrit

Klusteroinnin hallintaan voidaan käyttää seuraavia parametreja:

  • standard_scale: standardoi datan (0 riveille, 1 sarakkeille) siten, että jokaisella muuttujalla on keskiarvo 0 ja varianssi 1. Tämä on tärkeää, kun muuttujilla on eri yksiköt;
  • metric: käytettävä etäisyysmitta (esim. 'euclidean', 'correlation'). Tämä määrittää, mitä "samankaltaisuus" tarkoittaa;
  • method: käytettävä linkitysalgoritmi (esim. 'single', 'complete', 'average'). Tämä määrittää, miten klusterit muodostetaan.

Esimerkki

Tässä on Iris-aineiston clustermap. Huomaa, kuinka lajit (rivit) ryhmitellään automaattisesti yhteen, koska niillä on samankaltaiset mittaukset.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Tehtävä

Swipe to start coding

Analysoi lentomatkustajien dataa löytääksesi samankaltaisuuksia vuosien välillä.

  1. Aseta tyyli arvoksi 'ticks'. Vaihda taustaväriksi 'seagreen' ('figure.facecolor').
  2. Luo clustermap käyttäen muunnettua upd_df DataFramea:
  • Käytä upd_df datana.
  • Normalisoi sarakkeet asettamalla standard_scale arvoksi 1.
  • Käytä 'single' klusterointimenetelmää (method).
  • Käytä etäisyysmittana 'correlation' (metric).
  • Näytä arvot soluissa (annot=True).
  • Aseta arvorajat: vmin=0 ja vmax=10.
  • Käytä 'vlag' väriteemaa.
  1. Näytä kuvaaja.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 17
single

single

some-alt