Summary  
This chapter explains how to introduce randomness into ensemble learning by using bootstrap sampling of the data and random subsets of features at each decision node to create a diverse set of decision trees in a Random Forest.  

General domain of usage  
Machine learning

Random Forest rakentaa suuren määrän päätöspuita – tyypillisesti noin **100** tai jopa enemmän. Näin monien erilaisten puiden luominen ei onnistu pelkästään asetuksia säätämällä, joten mukaan tuodaan **satunnaisuutta**. Onneksi päätöspuut ovat **erittäin herkkiä pienille muutoksille datassa** ja asetuksissa, mikä luonnollisesti johtaa monipuoliseen metsään erilaisia puita.

Random Forestissa on kaksi satunnaisuuden lähdettä:
1. **Datan otanta** jokaista puuta varten;
2. **Ominaisuuksien otanta** jokaisessa päätössolmussa jokaisessa puussa.

## Datan otanta

Jokaiselle päätöspuulle metsään luodaan erilainen opetusjoukko käyttämällä **bootstrap**-menetelmää (tunnetaan myös nimellä **bagging**). Ideana on ottaa otos, **palauttaen**, joka on kooltaan sama kuin alkuperäinen aineisto.

Oletuksena jokaisen puun aineiston koko vastaa **alkuperäisen aineiston kokoa**. Otanta palauttaen voidaan ajatella **satunnaiseksi** tietueen valinnaksi opetusjoukosta – kuten kortin nostaminen pakasta. Toisin kuin tavallisessa korttien nostossa, **valittua tietuetta ei poisteta**, joten sama tietue voi tulla valituksi useita kertoja.

Jokainen puu opetetaan **eri osajoukolla** dataa, mikä jo itsessään lisää puiden monimuotoisuutta. Satunnaisuutta ja opetuksen nopeutta voidaan lisätä rajoittamalla myös **ominaisuuksien määrää**, joita kukin puu huomioi jakaumia tehdessään.

## Ominaisuuksien otanta

Tavallisessa päätöspuussa jokainen solmu tarkastelee kaikkia käytettävissä olevia ominaisuuksia löytääkseen parhaan jakokohdan – yleensä laskemalla mittareita kuten **Gini-epäpuhtaus**. Tämä prosessi on laskennallisesti raskas.

Random Forest -menetelmässä jokaisessa solmussa otetaan huomioon vain **satunnainen osa ominaisuuksista**. Tämä nopeuttaa mallin koulutusta ja lisää satunnaisuutta, mikä auttaa tekemään puista monimuotoisempia. Yleinen tapa on käyttää ominaisuuksien kokonaismäärän **neliöjuurta**. Esimerkiksi, jos ominaisuuksia on **9**, voidaan satunnaisesti valita **3** jokaisessa solmussa; jos ominaisuuksia on **10,000**, valitaan noin **100**.

Ominaisuudet otetaan **ilman palautusta**, joten sama ominaisuus ei voi esiintyä useammin kuin kerran yhdessä solmussa. Otettavien ominaisuuksien määrää voidaan säätää käyttötarkoituksen mukaan.

Voit hallita, kuinka monta ominaisuutta otetaan huomioon jokaisessa päätössolmussa, käyttämällä `max_features`-parametria **scikit-learnin** toteutuksessa. Tässä joitakin suosittuja vaihtoehtoja:

- `max_features='sqrt'`: käyttää ominaisuuksien kokonaismäärän **neliöjuurta**. Tämä on yleinen oletus, joka tasapainottaa tarkkuuden ja tehokkuuden;
- `max_features='log2'`: käyttää ominaisuuksien kokonaismäärän **kaksikantaisen logaritmin**, mikä lisää satunnaisuutta entisestään;
- `max_features=0.1`: käyttää **10 % ominaisuuksista**, jolloin arvo tulkitaan suhteena.

Voit myös asettaa `max_features`-parametrin mihin tahansa arvoon välillä `0` ja `1` (esim. `max_features=0.1` käyttää **10 %** ominaisuuksista).

Huomio

Yhteenvetona voidaan todeta, että satunnaismetsä on suunniteltu siten, että jokainen puu opetetaan **eri otoksella datasta**, ja jokainen päätössolmu näissä puissa ottaa huomioon **eri satunnaisen joukon piirteitä**. Tämä sisäänrakennettu satunnaisuus johtaa monipuoliseen puukokoelmaan, mikä lopulta **parantaa mallin kokonais­suorituskykyä**.

Mikä auttaa saavuttamaan satunnaisuuden satunnaismetsässä? Valitse kaikki, jotka pätevät.

Hallitse keskeiset luokittelualgoritmit, jotka ovat modernin koneoppimisen ytimessä. Tutustu siihen, miten mallit kuten k-NN, logistinen regressio, päätöspuut ja satunnaismetsät tekevät ennusteita, arvioi niiden tarkkuutta ja ymmärrä, milloin kutakin kannattaa käyttää. Kehitä taitoja vertailla malleja ja valita paras vaihtoehto aineistosi perusteella.

Opi, miten k-lähimmän naapurin algoritmi tekee ennusteita samankaltaisuuden perusteella. Sisältää useiden piirteiden käsittelyn, parametrien säätämisen ja ristiinvalidoinnin hyödyntämisen tarkkuuden parantamiseksi.

Ymmärrä, miten logistinen regressio mallintaa todennäköisyyksiä ja luokittelee tuloksia. Harjoittele sen toteuttamista, päätösrajojen tulkintaa sekä regularisoinnin soveltamista ylisovittamisen estämiseksi.

Opi, kuinka päätöspuut jakavat dataa merkityksellisiin ryhmiin ominaisuuksien arvojen perusteella. Tutustu siihen, miten parametrit, kuten puun syvyys ja lehden miniminäytteiden määrä, vaikuttavat mallin suorituskykyyn ja yleistettävyyteen.

Tutustu siihen, miten satunnaismetsät yhdistävät useita päätöspuita parantaakseen tarkkuutta ja vankkuutta. Ymmärrä satunnaisuuden rooli ja sovella tätä yhdistelmämallia reaalimaailman dataan.

Mallien arviointi mittareilla, kuten tarkkuus, precision, recall ja F1-pisteet. Sekamatriksien tulkinta ja useiden luokittelijoiden vertailu parhaan mallin tunnistamiseksi.

Metsän Satunnaisuus

Datan otanta

Ominaisuuksien otanta