Yhteenveto
Pyyhkäise näyttääksesi valikon
Yhteenvetona olet oppinut neljä algoritmia: k-NN, logistinen regressio, päätöspuu ja satunnaismetsä. Jokaisella on omat etunsa ja haittansa, joita käsiteltiin kunkin algoritmin omassa osiossa.
Seuraava visualisointi havainnollistaa, miten kukin algoritmi suoriutuu erilaisilla synteettisillä aineistoilla:
Tässä kuvassa väri syvenee mallin ennusteen varmuuden kasvaessa.
Huomaat, että jokaisessa aineistossa eri malli suoriutuu parhaiten. On vaikea tietää etukäteen, mikä malli toimii parhaiten, joten paras lähestymistapa on kokeilla useita vaihtoehtoja. Tämä on No Free Lunch -teoreeman ydin.
Joissakin tilanteissa algoritmien tuntemus voi kuitenkin auttaa sulkemaan pois tiettyjä malleja etukäteen, jos ne eivät sovellu tehtävään.
Esimerkiksi logistinen regressio (ilman PolynomialFeatures-muunnosta) muodostaa lineaarisen päätösrajan. Katsomalla toisen aineiston monimutkaisuutta kuvassa voimme ennakoida, ettei se toimi hyvin.
Toisena esimerkkinä, jos tehtävä vaatii erittäin nopeaa ennustamista – kuten reaaliaikaiset ennusteet sovelluksessa – k-NN on huono valinta. Sama koskee satunnaismetsää, jossa on paljon päätöspuita. Voit vähentää puiden määrää n_estimators-parametrilla nopeuden parantamiseksi, mutta tämä voi heikentää suorituskykyä.
Seuraava taulukko auttaa ymmärtämään, millaista esikäsittelyä kukin malli vaatii ennen koulutusta ja miten mallin suorituskyky muuttuu ominaisuuksien tai havaintojen määrän kasvaessa:
n– havaintojen määrä (näytteet);m– piirteiden määrä;t– puiden määrä satunnaismetsässä;k– naapureiden määrä k-NN:ssä;*Skaalausta ei tarvita, jospenalty=Nonelogistisessa regressiossa;**PolynomialFeatures lisää piirteitä, joten piirteiden määrämkasvaa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme