Summary  
This chapter explains how to assess and compare potential splits in a decision tree by computing impurity metrics (Gini impurity and entropy) and using a greedy feature‐threshold search to minimize the weighted impurity at each node.

General domain of usage  
Supervised machine learning classification

Under træning skal vi finde **det bedste split ved hver beslutningsnode**. Når vi opdeler dataene i to noder, sigter vi efter, at forskellige klasser er i separate noder.

- **Bedste tilfælde:** alle datapunkter i en node tilhører samme klasse;
- **Værste tilfælde:** et lige antal datapunkter for hver klasse.

## Gini-urenhed

For at måle hvor god en opdeling er, kan vi beregne **Gini-urenheden**. Det er sandsynligheden for, at hvis vi **tilfældigt** tager to punkter fra en node (med tilbageføring), vil de være af **forskellige klasser**. Jo lavere denne sandsynlighed (urenhed) er, desto bedre er opdelingen.

Du kan beregne Gini-urenheden for **binær klassifikation** ved hjælp af følgende formel:
$$
\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2
$$

Hvor
- $$m_i$$ – antal forekomster af klasse $$i$$ i en node;
- $$m$$ – antal forekomster i en node;
- $$p_i = \frac{m_i}{m}$$ – sandsynlighed for at vælge klasse $$i$$.

Og for **multiklasse-klassifikation** er formlen:
$$
\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2
$$

Hvor
- $$C$$ – antal klasser.

Kvaliteten af splitningen kan måles ved at tage **den vægtede sum af Gini-scorer** for begge noder opnået fra en splitning. Dette er værdien, der ønskes **minimeret**.

For at splitte en beslutningsnode skal der findes en egenskab at splitte på samt tærskelværdien:

Ved et beslutningspunkt finder algoritmen **grådigt** den bedste tærskel for hver egenskab. Derefter vælger den det split med **lavest Gini-urenhed** blandt alle egenskaber (hvis der er lighed, vælges tilfældigt).

## Entropi

**Entropi** er et andet mål for urenhed. For et binært klassifikationsproblem beregnes entropien $$H$$ for en node med formlen:

$$
H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)
$$

hvor:

- $$p$$ er andelen af positive eksempler (klasse 1);
- $$1 - p$$ er andelen af negative eksempler (klasse 0).

For et **multiklassifikationsproblem** beregnes entropien $$H$$ for en node med formlen:

$$
H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)
$$

hvor:

- $$k$$ er antallet af klasser;
- $$p_i$$ er andelen af eksempler, der tilhører klasse $$i$$ i noden.

På samme måde som Gini-urenhed kan vi måle, hvor god en opdeling er, ved at beregne **den vægtede sum af entropiværdier** for de børnenoder, der opnås fra opdelingen. Dette er den værdi, vi ønsker at **minimere** for at **maksimere informationsgevinsten**.

Entropien er **maksimal**, når alle klasser er lige repræsenteret. Den er **minimal** (0), når alle eksempler tilhører **én klasse** (rent node).

Bemærk

Behersk de centrale algoritmer inden for supervised learning og implementer dem ved hjælp af Scikit-learn. Udforsk lineær og polynomiel regression til prisforudsigelse, og gå videre til klassifikation ved hjælp af k-NN, logistisk regression og beslutningstræer. Lær at evaluere modeller gennem krydsvalidering, håndtere overfitting med regularisering og optimere hyperparametre. Byg robuste prædiktive systemer og definer komplekse beslutningsgrænser for multi-klasse klassifikationsopgaver.

Opdeling af Noderne

Gini-urenhed

Entropi