Hierarkkisen Klusteroinnin Suorittaminen
clustermap on matriisikaavio, joka yhdistää lämpökartan ja hierarkkisen klusteroinnin.
Tavallinen lämpökartta näyttää datan kiinteässä ruudukossa, kun taas clustermap järjestelee uudelleen rivit ja sarakkeet siten, että samankaltaiset arvot ovat vierekkäin. Akselien puumaiset kaaviot ovat nimeltään dendrogrammit, ja ne osoittavat, miten havaintopisteet ryhmitellään.
Keskeiset parametrit
Klusteroinnin hallintaan voidaan käyttää seuraavia parametreja:
standard_scale: standardoi datan (0 riveille, 1 sarakkeille) siten, että jokaisella muuttujalla on keskiarvo 0 ja varianssi 1. Tämä on tärkeää, kun muuttujilla on eri yksiköt;metric: käytettävä etäisyysmitta (esim.'euclidean','correlation'). Tämä määrittää, mitä "samankaltaisuus" tarkoittaa;method: käytettävä linkitysalgoritmi (esim.'single','complete','average'). Tämä määrittää, miten klusterit muodostetaan.
Esimerkki
Tässä on Iris-aineiston clustermap. Huomaa, kuinka lajit (rivit) ryhmitellään automaattisesti yhteen, koska niillä on samankaltaiset mittaukset.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analysoi lentomatkustajien dataa löytääksesi samankaltaisuuksia vuosien välillä.
- Aseta tyyli arvoksi
'ticks'. Vaihda taustaväriksi'seagreen'('figure.facecolor'). - Luo clustermap käyttäen muunnettua
upd_dfDataFramea:
- Käytä
upd_dfdatana. - Normalisoi sarakkeet asettamalla
standard_scalearvoksi1. - Käytä
'single'klusterointimenetelmää (method). - Käytä etäisyysmittana
'correlation'(metric). - Näytä arvot soluissa (
annot=True). - Aseta arvorajat:
vmin=0javmax=10. - Käytä
'vlag'väriteemaa.
- Näytä kuvaaja.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Mahtavaa!
Completion arvosana parantunut arvoon 4.55
Hierarkkisen Klusteroinnin Suorittaminen
Pyyhkäise näyttääksesi valikon
clustermap on matriisikaavio, joka yhdistää lämpökartan ja hierarkkisen klusteroinnin.
Tavallinen lämpökartta näyttää datan kiinteässä ruudukossa, kun taas clustermap järjestelee uudelleen rivit ja sarakkeet siten, että samankaltaiset arvot ovat vierekkäin. Akselien puumaiset kaaviot ovat nimeltään dendrogrammit, ja ne osoittavat, miten havaintopisteet ryhmitellään.
Keskeiset parametrit
Klusteroinnin hallintaan voidaan käyttää seuraavia parametreja:
standard_scale: standardoi datan (0 riveille, 1 sarakkeille) siten, että jokaisella muuttujalla on keskiarvo 0 ja varianssi 1. Tämä on tärkeää, kun muuttujilla on eri yksiköt;metric: käytettävä etäisyysmitta (esim.'euclidean','correlation'). Tämä määrittää, mitä "samankaltaisuus" tarkoittaa;method: käytettävä linkitysalgoritmi (esim.'single','complete','average'). Tämä määrittää, miten klusterit muodostetaan.
Esimerkki
Tässä on Iris-aineiston clustermap. Huomaa, kuinka lajit (rivit) ryhmitellään automaattisesti yhteen, koska niillä on samankaltaiset mittaukset.
12345678910111213141516171819import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
Swipe to start coding
Analysoi lentomatkustajien dataa löytääksesi samankaltaisuuksia vuosien välillä.
- Aseta tyyli arvoksi
'ticks'. Vaihda taustaväriksi'seagreen'('figure.facecolor'). - Luo clustermap käyttäen muunnettua
upd_dfDataFramea:
- Käytä
upd_dfdatana. - Normalisoi sarakkeet asettamalla
standard_scalearvoksi1. - Käytä
'single'klusterointimenetelmää (method). - Käytä etäisyysmittana
'correlation'(metric). - Näytä arvot soluissa (
annot=True). - Aseta arvorajat:
vmin=0javmax=10. - Käytä
'vlag'väriteemaa.
- Näytä kuvaaja.
Ratkaisu
Kiitos palautteestasi!
single