Summary  
This chapter explains how to prevent overfitting in decision trees by tuning hyperparameters—specifically limiting the maximum depth and setting a minimum number of samples per leaf—to simplify the model and improve generalization.

General domain of usage  
Machine learning classification

Før vi går i gang med at implementere et Decision Tree i Python, er der et vigtigt emne at tage op: **overfitting** – den primære udfordring forbundet med Decision Trees.

Nedenfor ses et eksempel på, hvordan Decision Tree tilpasser sig datasættet. Bemærk, hvordan modellen **tilpasser sig træningsdataene** og opfanger dets mønstre og detaljer:

Selvom modellen **passer perfekt til træningssættet** uden at fejlklassificere nogen observationer, er problemet, at beslutningsgrænserne er **for komplekse**. Derfor vil nøjagtigheden på test- (eller krydsvaliderings-)sættet være markant lavere end på træningssættet, hvilket indikerer, at modellen **overfitter**.

Årsagen til dette er, at modellen vil foretage **så mange opdelinger som nødvendigt** for at tilpasse sig træningsdataene perfekt.

Heldigvis er Decision Tree meget konfigurerbar, så vi kan justere dets hyperparametre for at **minimere overfitting**.

## Maksimal trædybde

**Dybde** for en node er afstanden (lodret) fra noden til rodnoden.

Vi kan begrænse **maksimal dybde** af et beslutningstræ, hvilket gør det mindre og mindre tilbøjeligt til at overtilpasse. For at gøre dette omdanner vi beslutningsnoder på en maksimal dybde til **bladnoder**.

Her er også en gif, der viser, hvordan beslutningsgrænsen ændrer sig med forskellige værdier for maksimal dybde:

## Minimum antal prøver

En anden måde at begrænse træet på er at angive **minimum antal prøver** på bladnoderne. Dette gør modellen enklere og mere robust over for outliers.

Du kan se, hvordan denne hyperparameter påvirker **beslutningsgrænsen**:

Begge disse hyperparametre er tilgængelige i **scikit-learns Decision Tree**-implementering.  
Som standard er træet ikke begrænset: `max_depth` er sat til `None`, hvilket betyder, at der ikke er nogen grænse for dybden, og `min_samples_leaf` er sat til `1`.

Behersk de centrale klassifikationsalgoritmer, der driver moderne maskinlæring. Udforsk hvordan modeller som k-NN, logistisk regression, beslutningstræer og random forests foretager forudsigelser, evaluerer deres nøjagtighed, og forstå hvornår hver model bør anvendes. Opbyg færdigheder til at sammenligne modeller og vælge den bedste til dine data.

Opdag, hvordan k-nærmeste naboer-algoritmen foretager forudsigelser baseret på lighed. Lær at håndtere flere egenskaber, justere parametre og anvende krydsvalidering for at forbedre nøjagtigheden.

Forstå, hvordan logistisk regression modellerer sandsynligheder og klassificerer udfald. Øv implementering, fortolkning af beslutningsgrænser og anvendelse af regularisering for at forhindre overfitting.

Lær, hvordan beslutningstræer opdeler data i meningsfulde grupper baseret på featureværdier. Udforsk, hvordan parametre som trædybde og minimum antal prøver per blad påvirker modellens ydeevne og generalisering.

Undersøg, hvordan random forests kombinerer flere beslutningstræer for at forbedre nøjagtighed og robusthed. Forstå betydningen af tilfældighed og anvend denne ensemble-metode på virkelige data.

Evaluering af modeller ved hjælp af metrikker såsom nøjagtighed, præcision, recall og F1-score. Lær at fortolke forvekslingsmatrixer og sammenligne flere klassifikatorer for at identificere den bedst præsterende model.

Forebyggelse af Overfitting i Beslutningstræer

Maksimal trædybde

Minimum antal prøver