Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Yhteenveto | Mallien Vertailu
Luokittelu Pythonilla

bookYhteenveto

Yhteenvetona olet oppinut neljä algoritmia: k-NN, logistinen regressio, päätöspuu ja satunnaismetsä. Jokaisella on omat etunsa ja haittansa, jotka käytiin läpi kunkin algoritmin omassa osiossa.

Seuraava visualisointi havainnollistaa, miten kukin algoritmi suoriutuu erilaisilla synteettisillä aineistoilla:

Tässä visualisoinnissa värin tummuus ilmaisee mallin ennusteen varmuutta.

Huomaat, että jokaisessa aineistossa eri malli suoriutuu parhaiten. On vaikea tietää etukäteen, mikä malli toimii parhaiten, joten paras lähestymistapa on kokeilla useita vaihtoehtoja. Tämä on No Free Lunch -teoreeman perusajatus.

Joissain tilanteissa algoritmien tuntemus auttaa kuitenkin rajaamaan joitakin malleja pois etukäteen, jos ne eivät sovellu tehtävään.

Esimerkiksi logistinen regressio (ilman PolynomialFeatures-ominaisuutta) muodostaa lineaarisen päätösrajan. Katsomalla toisen aineiston monimutkaisuutta kuvassa voidaan jo etukäteen päätellä, ettei se toimi hyvin.

Toisena esimerkkinä, jos tehtävä vaatii erittäin nopeaa ennustamista — kuten reaaliaikaiset ennusteet sovelluksessa — k-NN on huono valinta. Sama pätee satunnaismetsään, jossa on paljon päätöspuita. Voit vähentää puiden määrää n_estimators-parametrilla nopeuttaaksesi mallia, mutta tämä voi heikentää suorituskykyä.

Seuraava taulukko auttaa ymmärtämään, millaista esikäsittelyä kukin malli vaatii ennen koulutusta ja miten mallin suorituskyky muuttuu ominaisuuksien tai havaintojen määrän kasvaessa:

  • n – havaintojen (näytteiden) määrä;
  • m – ominaisuuksien määrä;
  • t – puiden määrä satunnaismetsässä;
  • k – naapureiden määrä k-NN:ssä;
  • * Skaalausta ei tarvita, jos logistisessa regressiossa penalty=None;
  • ** PolynomialFeatures lisää ominaisuuksia, joten tehokas ominaisuuksien määrä m kasvaa.
question mark

Mikä malli käyttää useita päätöspuita tehdäkseen ennusteen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 4

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4.17

bookYhteenveto

Pyyhkäise näyttääksesi valikon

Yhteenvetona olet oppinut neljä algoritmia: k-NN, logistinen regressio, päätöspuu ja satunnaismetsä. Jokaisella on omat etunsa ja haittansa, jotka käytiin läpi kunkin algoritmin omassa osiossa.

Seuraava visualisointi havainnollistaa, miten kukin algoritmi suoriutuu erilaisilla synteettisillä aineistoilla:

Tässä visualisoinnissa värin tummuus ilmaisee mallin ennusteen varmuutta.

Huomaat, että jokaisessa aineistossa eri malli suoriutuu parhaiten. On vaikea tietää etukäteen, mikä malli toimii parhaiten, joten paras lähestymistapa on kokeilla useita vaihtoehtoja. Tämä on No Free Lunch -teoreeman perusajatus.

Joissain tilanteissa algoritmien tuntemus auttaa kuitenkin rajaamaan joitakin malleja pois etukäteen, jos ne eivät sovellu tehtävään.

Esimerkiksi logistinen regressio (ilman PolynomialFeatures-ominaisuutta) muodostaa lineaarisen päätösrajan. Katsomalla toisen aineiston monimutkaisuutta kuvassa voidaan jo etukäteen päätellä, ettei se toimi hyvin.

Toisena esimerkkinä, jos tehtävä vaatii erittäin nopeaa ennustamista — kuten reaaliaikaiset ennusteet sovelluksessa — k-NN on huono valinta. Sama pätee satunnaismetsään, jossa on paljon päätöspuita. Voit vähentää puiden määrää n_estimators-parametrilla nopeuttaaksesi mallia, mutta tämä voi heikentää suorituskykyä.

Seuraava taulukko auttaa ymmärtämään, millaista esikäsittelyä kukin malli vaatii ennen koulutusta ja miten mallin suorituskyky muuttuu ominaisuuksien tai havaintojen määrän kasvaessa:

  • n – havaintojen (näytteiden) määrä;
  • m – ominaisuuksien määrä;
  • t – puiden määrä satunnaismetsässä;
  • k – naapureiden määrä k-NN:ssä;
  • * Skaalausta ei tarvita, jos logistisessa regressiossa penalty=None;
  • ** PolynomialFeatures lisää ominaisuuksia, joten tehokas ominaisuuksien määrä m kasvaa.
question mark

Mikä malli käyttää useita päätöspuita tehdäkseen ennusteen?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 5. Luku 4
some-alt