Summary  
This chapter explains how to prevent overfitting in decision trees by tuning hyperparameters—specifically limiting the maximum depth and setting a minimum number of samples per leaf—to simplify the model and improve generalization.

General domain of usage  
Machine learning classification

Voordat we beginnen met het implementeren van een Decision Tree in Python, is er een belangrijk onderwerp om te bespreken: **overfitting** – de voornaamste uitdaging bij Decision Trees.

Hieronder staat een voorbeeld van hoe de Decision Tree het dataset benadert. Let op hoe het model zich **aanpast aan de trainingsdata** en de patronen en details vastlegt:

Hoewel het model **de trainingsset perfect benadert** zonder fouten te maken, is het probleem dat de beslissingsgrenzen **te complex** zijn. Hierdoor zal de nauwkeurigheid op de testset (of bij cross-validatie) aanzienlijk lager zijn dan die van de trainingsset, wat aangeeft dat het model **overfit**.

De oorzaak hiervan is dat het model **zoveel splitsingen maakt als nodig is** om de trainingsdata perfect te benaderen.

Gelukkig is de Decision Tree zeer configureerbaar, waardoor we de hyperparameters kunnen aanpassen om **overfitting te minimaliseren**.

## Maximale boomdiepte

**Diepte** van een knoop is de afstand (verticaal) van de knoop tot de wortelknoop.

We kunnen de **maximale diepte** van een beslissingsboom beperken, waardoor deze kleiner wordt en minder snel overfit. Hiervoor veranderen we de beslissingsknopen op een maximale diepte in **bladknopen**.

Hier is ook een gif die laat zien hoe de beslissingsgrens verandert bij verschillende waarden voor de maximale diepte:

## Minimum aantal monsters

Een andere manier om de boom te beperken is door het **minimum aantal monsters** op de bladknopen in te stellen. Dit maakt het model eenvoudiger en robuuster tegen uitschieters.

Hier zie je hoe deze hyperparameter de **beslissingsgrens** beïnvloedt:

Beide hyperparameters zijn beschikbaar in de **Decision Tree**-implementatie van **scikit-learn**.  
Standaard is de boom onbeperkt: `max_depth` is ingesteld op `None`, wat betekent dat er geen limiet is aan de diepte, en `min_samples_leaf` is ingesteld op `1`.

Beheers de kernclassificatie-algoritmen die moderne machine learning aandrijven. Ontdek hoe modellen zoals k-NN, logistische regressie, beslissingsbomen en random forests voorspellingen doen, hun nauwkeurigheid evalueren en begrijp wanneer elk model te gebruiken. Ontwikkel vaardigheden om modellen te vergelijken en de beste keuze te maken voor uw data.

Ontdek hoe het k-nearest neighbors-algoritme voorspellingen doet op basis van gelijkenis. Leer omgaan met meerdere kenmerken, parameters afstemmen en kruisvalidatie toepassen om de nauwkeurigheid te verbeteren.

Inzicht in hoe logistische regressie waarschijnlijkheden modelleert en uitkomsten classificeert. Oefenen met het implementeren ervan, het interpreteren van beslissingsgrenzen en het toepassen van regularisatie om overfitting te voorkomen.

Leer hoe beslisbomen gegevens opdelen in betekenisvolle groepen op basis van kenmerkwaarden. Ontdek hoe parameters zoals boomdiepte en het minimum aantal monsters per blad de modelprestaties en generalisatie beïnvloeden.

Ontdek hoe random forests meerdere beslissingsbomen combineren om de nauwkeurigheid en robuustheid te verbeteren. Begrijp de rol van willekeur en pas deze ensemblemethode toe op real-world data.

Modellen evalueren met behulp van metriek zoals nauwkeurigheid, precisie, recall en F1-score. Interpretatie van verwarringsmatrices en vergelijking van meerdere classificatie-algoritmen om het best presterende model te identificeren.

Overfitting Voorkomen bij Beslissingsbomen

Maximale boomdiepte

Minimum aantal monsters