Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Toteutus Asiakasdatan Avulla | Osio
Practice
Projects
Quizzes & Challenges
Visat
Challenges
/
Ohjaamattoman Oppimisen Perusteet

bookToteutus Asiakasdatan Avulla

Käytössä on luottokorttiasiakkaiden data. Ennen kuin suoritat klusteroinnin, noudata seuraavia vaiheita:

  1. Datan lataus: käytä pandas-kirjastoa CSV-tiedoston lataamiseen;

  2. Puuttuvien arvojen käsittely: tarvittaessa täydennä tai poista rivit, joissa on puuttuvia arvoja;

  3. Piirteiden skaalaus: käytä StandardScaler-luokkaa piirteiden skaalaamiseen. Tämä on tärkeää, koska hierarkkinen klusterointi perustuu etäisyyslaskelmiin;

  4. Ulottuvuuksien vähentäminen (PCA): käytä pääkomponenttianalyysiä (PCA) datan vähentämiseksi kahteen ulottuvuuteen. Tämä helpottaa klustereiden visualisointia.

Dendrogrammin tulkinta

Aloita analysoimalla dendrogrammia sopivan klustereiden määrän määrittämiseksi. Etsi suuria pystysuoria etäisyyksiä, joita mikään pitkä vaakasuora viiva ei ylitä.

Seuraavaksi voit piirtää datapisteet PCA:n jälkeen ja värittää ne klusteritunnisteiden mukaan, jotka on saatu leikkaamalla dendrogrammi valitusta korkeudesta.

Lopuksi tulisi tarkastella muodostuneiden klustereiden ominaisuuksia. On suositeltavaa tarkastella alkuperäisten piirteiden keskiarvoja (ennen PCA:ta) jokaisessa klusterissa, jotta voidaan ymmärtää, miten klusterit eroavat toisistaan.

Yhteenveto

Hierarkkinen klusterointi on tehokas menetelmä silloin, kun klustereiden määrää ei haluta määrittää etukäteen tai kun on tarpeen ymmärtää hierarkkisia suhteita havaintojen välillä. Menetelmä voi kuitenkin olla laskennallisesti raskas erittäin suurilla aineistoilla, ja oikean linkkausmenetelmän sekä optimaalisen klustereiden määrän valinta vaatii huolellista harkintaa sekä usein määrällisten menetelmien ja asiantuntijuuden yhdistämistä.

question mark

Mikä esikäsittelyvaihe on olennainen ennen hierarkkisen klusteroinnin soveltamista, jotta kaikki piirteet vaikuttavat yhtä paljon etäisyyslaskentaan?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 17

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookToteutus Asiakasdatan Avulla

Pyyhkäise näyttääksesi valikon

Käytössä on luottokorttiasiakkaiden data. Ennen kuin suoritat klusteroinnin, noudata seuraavia vaiheita:

  1. Datan lataus: käytä pandas-kirjastoa CSV-tiedoston lataamiseen;

  2. Puuttuvien arvojen käsittely: tarvittaessa täydennä tai poista rivit, joissa on puuttuvia arvoja;

  3. Piirteiden skaalaus: käytä StandardScaler-luokkaa piirteiden skaalaamiseen. Tämä on tärkeää, koska hierarkkinen klusterointi perustuu etäisyyslaskelmiin;

  4. Ulottuvuuksien vähentäminen (PCA): käytä pääkomponenttianalyysiä (PCA) datan vähentämiseksi kahteen ulottuvuuteen. Tämä helpottaa klustereiden visualisointia.

Dendrogrammin tulkinta

Aloita analysoimalla dendrogrammia sopivan klustereiden määrän määrittämiseksi. Etsi suuria pystysuoria etäisyyksiä, joita mikään pitkä vaakasuora viiva ei ylitä.

Seuraavaksi voit piirtää datapisteet PCA:n jälkeen ja värittää ne klusteritunnisteiden mukaan, jotka on saatu leikkaamalla dendrogrammi valitusta korkeudesta.

Lopuksi tulisi tarkastella muodostuneiden klustereiden ominaisuuksia. On suositeltavaa tarkastella alkuperäisten piirteiden keskiarvoja (ennen PCA:ta) jokaisessa klusterissa, jotta voidaan ymmärtää, miten klusterit eroavat toisistaan.

Yhteenveto

Hierarkkinen klusterointi on tehokas menetelmä silloin, kun klustereiden määrää ei haluta määrittää etukäteen tai kun on tarpeen ymmärtää hierarkkisia suhteita havaintojen välillä. Menetelmä voi kuitenkin olla laskennallisesti raskas erittäin suurilla aineistoilla, ja oikean linkkausmenetelmän sekä optimaalisen klustereiden määrän valinta vaatii huolellista harkintaa sekä usein määrällisten menetelmien ja asiantuntijuuden yhdistämistä.

question mark

Mikä esikäsittelyvaihe on olennainen ennen hierarkkisen klusteroinnin soveltamista, jotta kaikki piirteet vaikuttavat yhtä paljon etäisyyslaskentaan?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 17
some-alt