Summary  
This chapter explains how to prevent overfitting in decision trees by tuning hyperparameters—specifically limiting the maximum depth and setting a minimum number of samples per leaf—to simplify the model and improve generalization.

General domain of usage  
Machine learning classification

Før vi går videre til å implementere et beslutningstre ved hjelp av Python, er det et viktig tema å diskutere: **overtilpasning** – den primære utfordringen knyttet til beslutningstrær.

Nedenfor vises et eksempel på hvordan beslutningstreet tilpasser seg datasettet. Legg merke til hvordan modellen **tilpasser seg treningsdataene** og fanger opp mønstre og detaljer:

Selv om modellen **perfekt tilpasser seg treningssettet** uten å feilkategorisere noen tilfeller, er problemet at beslutningsgrensene er **for komplekse**. Som et resultat vil nøyaktigheten på testsettet (eller ved kryssvalidering) være betydelig lavere enn nøyaktigheten på treningssettet, noe som indikerer at modellen **overtilpasser**.

Årsaken til dette er at modellen vil gjøre **så mange delinger som nødvendig** for å tilpasse seg treningsdataene perfekt.

Heldigvis er beslutningstreet svært konfigurerbart, slik at vi kan justere hyperparametrene for å **minimere overtilpasning**.

## Maksimal tre-dybde

**Dybde** til en node er avstanden (vertikalt) fra noden til rotenoden.

Vi kan begrense **maksimal dybde** til et beslutningstre, noe som gjør det mindre og mindre utsatt for overtilpasning. For å gjøre dette, gjør vi beslutningsnoder på maksimal dybde om til **bladnoder**.

Her er også en gif som viser hvordan beslutningsgrensen endres med ulike verdier for maksimal dybde:

## Minimum antall prøver

En annen måte å begrense treet på er å angi **minimum antall prøver** på bladnodene. Dette gjør modellen enklere og mer robust mot uteliggere.

Du kan se hvordan denne hyperparameteren påvirker **beslutningsgrensen**:

Begge disse hyperparameterne er tilgjengelige i **scikit-learn sin Decision Tree**-implementasjon.  
Som standard er treet uten begrensninger: `max_depth` er satt til `None`, noe som betyr at det ikke er noen grense for dybden, og `min_samples_leaf` er satt til `1`.

Behersk de sentrale klassifiseringsalgoritmene som driver moderne maskinlæring. Utforsk hvordan modeller som k-NN, logistisk regresjon, beslutningstrær og random forests gjør prediksjoner, evaluerer nøyaktigheten sin, og forstå når hver modell bør brukes. Bygg ferdigheter til å sammenligne modeller og velge den beste for dine data.

Utforsk hvordan k-nærmeste naboer-algoritmen gjør prediksjoner basert på likhet. Lær å håndtere flere egenskaper, justere parametere og bruke kryssvalidering for å forbedre nøyaktigheten.

Forstå hvordan logistisk regresjon modellerer sannsynligheter og klassifiserer utfall. Øv på implementering, tolkning av beslutningsgrenser og bruk av regularisering for å forhindre overtilpasning.

Lær hvordan beslutningstrær deler data inn i meningsfulle grupper basert på egenskapsverdier. Utforsk hvordan parametere som treets dybde og minimum antall prøver per blad påvirker modellens ytelse og generalisering.

Utforsk hvordan random forest kombinerer flere beslutningstrær for å forbedre nøyaktighet og robusthet. Forstå rollen til tilfeldighet og bruk denne ensemblemetoden på virkelige data.

Vurder modeller ved hjelp av måleparametere som nøyaktighet, presisjon, tilbakekalling og F1-score. Lær å tolke forvirringsmatriser og sammenligne flere klassifikatorer for å identifisere den best presterende modellen.

Forebygging av overtilpasning i beslutningstrær

Maksimal tre-dybde

Minimum antall prøver