Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on satunnaismetsä | Satunnaismetsä
Luokittelu Pythonilla

Mikä on satunnaismetsä

Pyyhkäise näyttääksesi valikon

Random Forest on algoritmi, jota käytetään laajasti luokittelu- ja regressio-ongelmissa. Se rakentaa useita erilaisia päätöspuita ja käyttää niiden enemmistöpäätöstä luokittelussa ja keskiarvoa regressiossa.

Metsäkala

Sen sijaan, että käytettäisiin vain yhtä parasta puuta, Random Forest rakentaa useita "heikompia" puita. Tämä saattaa kuulostaa epäloogiselta – miksi käyttäisimme malleja, jotka ovat huonompia?

Ajattele asiaa näin: yksittäinen päätöspuu on kuin yleisasiantuntija – se yrittää huomioida kaikki ominaisuudet ja antaa kokonaiskuvan. Se voi kuitenkin tulla liian itsevarmaksi ja tehdä virheitä ylisovittamalla datan kohinaan.

Random Forest taas on kuin asiantuntijatiimi. Jokainen puu opetetaan eri osilla dataa ja ne keskittyvät ongelman eri puoliin. Yksinään kukin puu ei välttämättä ole kovin vahva – se voi jopa ohittaa kokonaiskuvan. Mutta yhdessä, kun yhdistetään niiden "äänet", ne paikkaavat toistensa heikkouksia ja tarjoavat tasapainoisemman ja tarkemman ennusteen.

Tätä voi verrata siihen, että kysytään 100 pätevältä opiskelijalta yhden professorin sijaan. Vaikka professori saattaa olla asiantuntevampi, jopa asiantuntijat voivat olla puolueellisia tai erehtyä. Mutta jos enemmistö opiskelijoista päätyy itsenäisesti samaan vastaukseen, tämä konsensus on usein luotettavampi.

Käytännössä monien heikompien päätöspuiden yhdistäminen yhdeksi vahvaksi Random Forestiksi toimii erittäin hyvin ja usein selvästi päihittää säädetyn yksittäisen päätöspuun suurilla aineistoilla. Random Forestin päätösraja on tasaisempi ja yleistyy paremmin uuteen dataan kuin yksittäisen päätöspuun, joten Random Forestit ovat vähemmän alttiita ylisovitukselle.

dt vs rf boundaries

Tarkkuus ei kuitenkaan parane, jos yhdistämme useita malleja, jotka tekevät samat virheet. Jotta tämä lähestymistapa olisi tehokas, mallien tulisi olla mahdollisimman erilaisia toisistaan, jotta ne tekevät erilaisia virheitä.

erilainen
question mark

Random Forest -algoritmi yhdistää useita heikompia päätöspuita yhdeksi malliksi, joka yleensä suoriutuu paremmin kuin paras yksittäinen päätöspuu. Onko tämä väite oikein?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 4. Luku 1
some-alt