Summary  
This chapter explains how to split decision tree nodes by computing and minimizing impurity measures (Gini impurity or entropy) and greedily selecting the feature thresholds that yield the lowest weighted impurity.

General domain of usage  
Supervised machine learning classification

Tijdens het trainen moeten we de **beste splitsing bij elke beslissingsknoop** vinden. Wanneer we de data splitsen in twee knopen, streven we ernaar om verschillende klassen in aparte knopen te plaatsen.

- **Beste scenario:** alle datapunten in een knoop behoren tot dezelfde klasse;
- **Slechtste scenario:** een gelijk aantal datapunten voor elke klasse.

## Gini-onzuiverheid

Om te meten hoe goed een splitsing is, kunnen we de **Gini-onzuiverheid** berekenen. Dit is de kans dat als we **willekeurig** twee punten uit een knoop nemen (met teruglegging), deze tot **verschillende klassen** behoren. Hoe lager deze kans (onzuiverheid), hoe beter de splitsing.

De Gini-onzuiverheid voor **binaire classificatie** kan worden berekend met de volgende formule:
$$
\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2
$$

Waarbij
- $$m_i$$ - aantal instanties van klasse $$i$$ in een knoop;
- $$m$$ - aantal instanties in een knoop;
- $$p_i = \frac{m_i}{m}$$ - kans op het kiezen van klasse $$i$$.

Voor **multiclass-classificatie** is de formule:
$$
\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2
$$

Waarbij
- $$C$$ - aantal klassen.

De kwaliteit van de splitsing kan worden gemeten door de **gewogen som van Gini-scores** voor beide knopen die uit een splitsing zijn verkregen. Dit is de waarde die we willen **minimaliseren**.

Om een beslissingsknoop te splitsen, moet een kenmerk en een drempelwaarde worden gevonden:

Bij een beslissingsknooppunt vindt het algoritme **gretig** de beste drempelwaarde voor elk kenmerk. Vervolgens kiest het de splitsing met de **laagste Gini-onzuiverheid** van alle kenmerken (bij een gelijke stand wordt willekeurig gekozen).

## Entropie

De **entropie** is een andere maat voor de onzuiverheid. Voor een binair classificatieprobleem wordt de entropie $$H$$ van een knooppunt berekend met de formule:

$$
H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)
$$

waarbij:

- $$p$$ het aandeel positieve voorbeelden (klasse 1) is;
- $$1 - p$$ het aandeel negatieve voorbeelden (klasse 0) is.

Voor een **multiklassen-classificatieprobleem** wordt de entropie $$H$$ van een knooppunt berekend met de formule:

$$
H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)
$$

waarbij:

- $$k$$ het aantal klassen is;
- $$p_i$$ het aandeel voorbeelden behorend tot klasse $$i$$ in het knooppunt is.

Net als bij Gini-onzuiverheid kan worden gemeten hoe goed een splitsing is door de **gewogen som van entropiewaarden** voor de kindknooppunten te berekenen die uit de splitsing voortkomen. Dit is de waarde die men wil **minimaliseren** om de **informatieopbrengst te maximaliseren**.

De entropie is **maximaal** wanneer alle klassen gelijk vertegenwoordigd zijn. De entropie is **minimaal** (0) wanneer alle voorbeelden tot **één klasse** behoren (pure knoop).

Opmerking

Beheers de kernclassificatie-algoritmen die moderne machine learning aandrijven. Ontdek hoe modellen zoals k-NN, logistische regressie, beslissingsbomen en random forests voorspellingen doen, hun nauwkeurigheid evalueren en begrijp wanneer elk model te gebruiken. Ontwikkel vaardigheden om modellen te vergelijken en de beste keuze te maken voor uw data.

Ontdek hoe het k-nearest neighbors-algoritme voorspellingen doet op basis van gelijkenis. Leer omgaan met meerdere kenmerken, parameters afstemmen en kruisvalidatie toepassen om de nauwkeurigheid te verbeteren.

Inzicht in hoe logistische regressie waarschijnlijkheden modelleert en uitkomsten classificeert. Oefenen met het implementeren ervan, het interpreteren van beslissingsgrenzen en het toepassen van regularisatie om overfitting te voorkomen.

Leer hoe beslisbomen gegevens opdelen in betekenisvolle groepen op basis van kenmerkwaarden. Ontdek hoe parameters zoals boomdiepte en het minimum aantal monsters per blad de modelprestaties en generalisatie beïnvloeden.

Ontdek hoe random forests meerdere beslissingsbomen combineren om de nauwkeurigheid en robuustheid te verbeteren. Begrijp de rol van willekeur en pas deze ensemblemethode toe op real-world data.

Modellen evalueren met behulp van metriek zoals nauwkeurigheid, precisie, recall en F1-score. Interpretatie van verwarringsmatrices en vergelijking van meerdere classificatie-algoritmen om het best presterende model te identificeren.

Het Splitsen van de Knooppunten

Gini-onzuiverheid

Entropie