Summary  
This chapter covers controlling the complexity of decision trees to prevent overfitting by tuning hyperparameters such as maximum tree depth and minimum samples per leaf.  

General domain of usage  
Supervised machine learning (predictive modeling)

Ennen kuin siirrytään Decision Treen toteuttamiseen Pythonilla, on tärkeää käsitellä aihetta: **ylisovittaminen** – Decision Treen keskeinen haaste.

Alla on esimerkki siitä, miten Decision Tree sovittaa aineiston. Huomaa, kuinka malli **mukautuu opetusaineistoon**, tunnistaen sen rakenteet ja yksityiskohdat:

Vaikka malli **sovittaa täydellisesti opetusjoukon** ilman yhtään virheellistä luokitusta, ongelmana on, että päätösrajat ovat **liian monimutkaisia**. Tämän seurauksena testijoukon (tai ristiinvalidoinnin) tarkkuus on huomattavasti alhaisempi kuin opetusjoukon tarkkuus, mikä osoittaa, että malli **ylisovittaa**.

Tämä johtuu siitä, että malli tekee **niin monta jakoa kuin tarvitaan** sovittaakseen opetusdatan täydellisesti.

Onneksi päätöspuu on erittäin muokattavissa, joten voimme säätää sen hyperparametreja **ylisovittamisen minimoimiseksi**.

## Puun maksimisyvyys

Solmun **syvyys** on pystysuora etäisyys solmusta juurisolmuun.

Voimme rajoittaa päätöspuun **enimmäissyvyyttä**, jolloin puusta tulee pienempi ja ylisovittamisen riski pienenee. Tämä tehdään muuttamalla enimmäissyvyyden päätössolmut **lehtisolmuiksi**.

Tässä on myös gif-animaatio, joka näyttää, miten päätösraja muuttuu eri maksimisyvyyksillä:

## Vähimmäismäärä havaintoja

Toinen tapa rajoittaa puuta on asettaa **vähimmäismäärä havaintoja** lehtisolmuille. Tämä tekee mallista yksinkertaisemman ja kestävämmän poikkeaville arvoille.

Tässä näkyy, miten tämä hyperparametri vaikuttaa **päätösrajapintaan**:

Molemmat näistä hyperparametreista ovat käytettävissä **scikit-learnin Decision Tree** -toteutuksessa.  
Oletuksena puu on rajoittamaton: `max_depth` on asetettu arvoon `None`, eli syvyydelle ei ole rajoitusta, ja `min_samples_leaf` on asetettu arvoon `1`.

Hallitse keskeiset luokittelualgoritmit, jotka ovat modernin koneoppimisen ytimessä. Tutustu siihen, miten mallit kuten k-NN, logistinen regressio, päätöspuut ja satunnaismetsät tekevät ennusteita, arvioi niiden tarkkuutta ja ymmärrä, milloin kutakin kannattaa käyttää. Kehitä taitoja vertailla malleja ja valita paras vaihtoehto aineistosi perusteella.

Opi, miten k-lähimmän naapurin algoritmi tekee ennusteita samankaltaisuuden perusteella. Sisältää useiden piirteiden käsittelyn, parametrien säätämisen ja ristiinvalidoinnin hyödyntämisen tarkkuuden parantamiseksi.

Ymmärrä, miten logistinen regressio mallintaa todennäköisyyksiä ja luokittelee tuloksia. Harjoittele sen toteuttamista, päätösrajojen tulkintaa sekä regularisoinnin soveltamista ylisovittamisen estämiseksi.

Opi, kuinka päätöspuut jakavat dataa merkityksellisiin ryhmiin ominaisuuksien arvojen perusteella. Tutustu siihen, miten parametrit, kuten puun syvyys ja lehden miniminäytteiden määrä, vaikuttavat mallin suorituskykyyn ja yleistettävyyteen.

Tutustu siihen, miten satunnaismetsät yhdistävät useita päätöspuita parantaakseen tarkkuutta ja vankkuutta. Ymmärrä satunnaisuuden rooli ja sovella tätä yhdistelmämallia reaalimaailman dataan.

Mallien arviointi mittareilla, kuten tarkkuus, precision, recall ja F1-pisteet. Sekamatriksien tulkinta ja useiden luokittelijoiden vertailu parhaan mallin tunnistamiseksi.

Ylisovittamisen Estäminen Päätöspuissa

Puun maksimisyvyys

Vähimmäismäärä havaintoja