Lære Opdeling af Noderne | Beslutningstræ

Under træning skal vi finde det bedste split ved hver beslutningsnode. Når vi opdeler dataene i to noder, sigter vi efter, at forskellige klasser er i separate noder.

Bedste tilfælde: alle datapunkter i en node tilhører samme klasse;
Værste tilfælde: et lige antal datapunkter for hver klasse.

Gini-urenhed

For at måle hvor god en opdeling er, kan vi beregne Gini-urenheden. Det er sandsynligheden for, at hvis vi tilfældigt tager to punkter fra en node (med tilbageføring), vil de være af forskellige klasser. Jo lavere denne sandsynlighed (urenhed) er, desto bedre er opdelingen.

Du kan beregne Gini-urenhed for binær klassifikation ved hjælp af følgende formel:

\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Hvor

$m_i$ – antal forekomster af klasse $i$ i en node;
$m$ – antal forekomster i en node;
$p_i = \frac{m_i}{m}$ – sandsynlighed for at vælge klasse $i$ .

Og for multiklasse-klassifikation er formlen:

\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Hvor

$C$ – antal klasser.

Vi kan måle, hvor god opdelingen er, ved at tage den vægtede sum af Gini-scorer for begge noder opnået fra en opdeling. Det er den værdi, vi ønsker at minimere.

For at opdele en beslutningsnode skal vi finde en egenskab at opdele på samt tærskelværdien:

Ved et beslutningspunkt finder algoritmen grådigt den bedste tærskel for hver egenskab. Derefter vælger den det split med lavest Gini-urenhed blandt alle egenskaber (hvis der er lighed, vælges tilfældigt).

Entropi

Entropi er et andet mål for urenhed. For et binært klassifikationsproblem beregnes entropien $H$ for en node ved hjælp af formlen:

H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

hvor:

$p$ er andelen af positive eksempler (klasse 1);
$1 - p$ er andelen af negative eksempler (klasse 0).

For et multiklasse-klassifikationsproblem beregnes entropien $H$ for en node ved hjælp af formlen:

H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

hvor:

$k$ er antallet af klasser;
$p_i$ er andelen af eksempler, der tilhører klasse $i$ i noden.

På samme måde som Gini-urenhed kan vi måle, hvor god en opdeling er, ved at beregne den vægtede sum af entropiværdier for de børnenoder, der opnås fra opdelingen. Dette er den værdi, vi ønsker at minimere for at maksimere informationsgevinsten.

Bemærk

Entropien er maksimal, når alle klasser er lige repræsenteret. Den er minimal (0), når alle eksempler tilhører én klasse (rent node).

Var alt klart?

Tak for dine kommentarer!

Sektion 3. Kapitel 2

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain the difference between Gini impurity and entropy?

How do you choose between using Gini impurity and entropy in practice?

Can you show an example calculation for Gini impurity or entropy?

Stryg for at vise menuen

Under træning skal vi finde det bedste split ved hver beslutningsnode. Når vi opdeler dataene i to noder, sigter vi efter, at forskellige klasser er i separate noder.

Bedste tilfælde: alle datapunkter i en node tilhører samme klasse;
Værste tilfælde: et lige antal datapunkter for hver klasse.

Gini-urenhed

Du kan beregne Gini-urenhed for binær klassifikation ved hjælp af følgende formel:

\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Hvor

$m_i$ – antal forekomster af klasse $i$ i en node;
$m$ – antal forekomster i en node;
$p_i = \frac{m_i}{m}$ – sandsynlighed for at vælge klasse $i$ .

Og for multiklasse-klassifikation er formlen:

\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Hvor

$C$ – antal klasser.

Vi kan måle, hvor god opdelingen er, ved at tage den vægtede sum af Gini-scorer for begge noder opnået fra en opdeling. Det er den værdi, vi ønsker at minimere.

For at opdele en beslutningsnode skal vi finde en egenskab at opdele på samt tærskelværdien:

Entropi

Entropi er et andet mål for urenhed. For et binært klassifikationsproblem beregnes entropien $H$ for en node ved hjælp af formlen:

H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

hvor:

$p$ er andelen af positive eksempler (klasse 1);
$1 - p$ er andelen af negative eksempler (klasse 0).

For et multiklasse-klassifikationsproblem beregnes entropien $H$ for en node ved hjælp af formlen:

H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

hvor:

$k$ er antallet af klasser;
$p_i$ er andelen af eksempler, der tilhører klasse $i$ i noden.

Bemærk

Entropien er maksimal, når alle klasser er lige repræsenteret. Den er minimal (0), når alle eksempler tilhører én klasse (rent node).

Var alt klart?

Tak for dine kommentarer!

Sektion 3. Kapitel 2