Summary  
This chapter explains how to split decision tree nodes by computing and minimizing impurity measures (Gini impurity or entropy) and greedily selecting the feature thresholds that yield the lowest weighted impurity.

General domain of usage  
Supervised machine learning classification

Under opplæring må vi finne **det beste delingspunktet ved hver beslutningsnode**. Når vi deler dataene inn i to noder, er målet at ulike klasser havner i separate noder.

- **Beste tilfelle:** alle datapunkter i en node tilhører samme klasse;
- **Verste tilfelle:** like mange datapunkter for hver klasse.

## Gini-impuritet

For å måle hvor god en deling er, kan vi beregne **Gini-impuritet**. Dette er sannsynligheten for at hvis vi **tilfeldig** trekker to punkter fra en node (med tilbakelegging), vil de tilhøre **forskjellige klasser**. Jo lavere denne sannsynligheten (impuriteten) er, desto bedre er delingen.

Du kan beregne Gini-impuritet for **binær klassifisering** ved å bruke følgende formel:
$$
\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2
$$

Hvor
- $$m_i$$ – antall forekomster av klasse $$i$$ i en node;
- $$m$$ – antall forekomster i en node;
- $$p_i = \frac{m_i}{m}$$ – sannsynlighet for å velge klasse $$i$$.

Og for **multiklasse-klassifisering** er formelen:
$$
\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2
$$

Hvor
- $$C$$ – antall klasser.

Kvaliteten på delingen kan måles ved å ta **vektet sum av Gini-verdier** for begge nodene som oppnås etter en deling. Dette er verdien vi ønsker å **minimere**.

For å dele en beslutningsnode må vi finne en egenskap å dele på og terskelen:

Ved et beslutningspunkt finner algoritmen **grådig** den beste terskelen for hver egenskap. Deretter velger den delingen med **lavest Gini-impuritet** blant alle egenskaper (ved likhet velges tilfeldig).

## Entropi

**Entropi** er et annet mål på impuritet. For et binært klassifiseringsproblem beregnes entropien $$H$$ til en node med formelen:

$$
H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)
$$

hvor:

- $$p$$ er andelen positive eksempler (klasse 1);
- $$1 - p$$ er andelen negative eksempler (klasse 0).

For et **multiklasse-klassifiseringsproblem** beregnes entropien $$H$$ til en node med formelen:

$$
H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)
$$

hvor:

- $$k$$ er antall klasser;
- $$p_i$$ er andelen eksempler som tilhører klasse $$i$$ i noden.

På samme måte som for Gini-impuritet kan vi måle hvor god en deling er ved å beregne **vektet sum av entropiverdier** for barne-nodene som oppstår etter delingen. Dette er verdien vi ønsker å **minimere** for å **maksimere informasjonsgevinsten**.

Entropien er **maksimal** når alle klasser er likt representert. Den er **minimal** (0) når alle eksempler tilhører **én klasse** (rent node).

Merk

Behersk de sentrale klassifiseringsalgoritmene som driver moderne maskinlæring. Utforsk hvordan modeller som k-NN, logistisk regresjon, beslutningstrær og random forests gjør prediksjoner, evaluerer nøyaktigheten sin, og forstå når hver modell bør brukes. Bygg ferdigheter til å sammenligne modeller og velge den beste for dine data.

Utforsk hvordan k-nærmeste naboer-algoritmen gjør prediksjoner basert på likhet. Lær å håndtere flere egenskaper, justere parametere og bruke kryssvalidering for å forbedre nøyaktigheten.

Forstå hvordan logistisk regresjon modellerer sannsynligheter og klassifiserer utfall. Øv på implementering, tolkning av beslutningsgrenser og bruk av regularisering for å forhindre overtilpasning.

Lær hvordan beslutningstrær deler data inn i meningsfulle grupper basert på egenskapsverdier. Utforsk hvordan parametere som treets dybde og minimum antall prøver per blad påvirker modellens ytelse og generalisering.

Utforsk hvordan random forest kombinerer flere beslutningstrær for å forbedre nøyaktighet og robusthet. Forstå rollen til tilfeldighet og bruk denne ensemblemetoden på virkelige data.

Vurder modeller ved hjelp av måleparametere som nøyaktighet, presisjon, tilbakekalling og F1-score. Lær å tolke forvirringsmatriser og sammenligne flere klassifikatorer for å identifisere den best presterende modellen.

Deling av noder

Gini-impuritet

Entropi