Het Splitsen van de Knopen
Tijdens het trainen moeten we de beste splitsing bij elk beslissingsknooppunt vinden. Wanneer we de data splitsen in twee knooppunten, streven we ernaar om verschillende klassen in aparte knooppunten te plaatsen.
- Beste geval: alle datapunten in een knooppunt behoren tot dezelfde klasse;
- Slechtste geval: een gelijk aantal datapunten voor elke klasse.
Gini-onzuiverheid
Om te meten hoe goed een splitsing is, kunnen we de Gini-onzuiverheid berekenen. Dit is de kans dat als we willekeurig twee punten uit een knooppunt nemen (met teruglegging), ze van verschillende klassen zijn. Hoe lager deze kans (onzuiverheid), hoe beter de splitsing.
De Gini-onzuiverheid voor binaire classificatie kan worden berekend met de volgende formule:
gini=1−p02−p12=1−(mm0)2−(mm1)2Waarbij
- mi - aantal instanties van klasse i in een knoop;
- m - aantal instanties in een knoop;
- pi=mmi - kans op het kiezen van klasse i.
Voor multiclass-classificatie is de formule:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Waarbij
- C - aantal klassen.
De kwaliteit van de splitsing kan worden gemeten door de gewogen som van Gini-scores voor beide knopen die uit een splitsing zijn verkregen. Dit is de waarde die moet worden geminimaliseerd.
Om een beslissingsknoop te splitsen, moet een kenmerk en een drempelwaarde worden gevonden:
Bij een beslissingsknoop vindt het algoritme gretig de beste drempelwaarde voor elk kenmerk. Vervolgens kiest het de splitsing met de laagste Gini-onzuiverheid van alle kenmerken (bij een gelijke stand wordt willekeurig gekozen).
Entropie
De entropie is een andere maat voor de onzuiverheid. Voor een binair classificatieprobleem wordt de entropie H van een knoop berekend met de formule:
H(p)=−plog2(p)−(1−p)log2(1−p)waarbij:
- p het aandeel positieve voorbeelden (klasse 1) is;
- 1−p het aandeel negatieve voorbeelden (klasse 0) is.
Voor een multiklassen-classificatieprobleem wordt de entropie H van een knoop berekend met de formule:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)waarbij:
- k het aantal klassen is;
- pi het aandeel voorbeelden behorend tot klasse i in de knoop is.
Net als bij Gini-onzuiverheid kan de kwaliteit van een splitsing worden gemeten door de gewogen som van entropiewaarden voor de kindknopen die uit de splitsing voortkomen te berekenen. Dit is de waarde die we willen minimaliseren om de informatieopbrengst te maximaliseren.
De entropie is maximaal wanneer alle klassen gelijk vertegenwoordigd zijn. De entropie is minimaal (0) wanneer alle voorbeelden tot één klasse behoren (pure node).
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Geweldig!
Completion tarief verbeterd naar 3.33
Het Splitsen van de Knopen
Veeg om het menu te tonen
Tijdens het trainen moeten we de beste splitsing bij elk beslissingsknooppunt vinden. Wanneer we de data splitsen in twee knooppunten, streven we ernaar om verschillende klassen in aparte knooppunten te plaatsen.
- Beste geval: alle datapunten in een knooppunt behoren tot dezelfde klasse;
- Slechtste geval: een gelijk aantal datapunten voor elke klasse.
Gini-onzuiverheid
Om te meten hoe goed een splitsing is, kunnen we de Gini-onzuiverheid berekenen. Dit is de kans dat als we willekeurig twee punten uit een knooppunt nemen (met teruglegging), ze van verschillende klassen zijn. Hoe lager deze kans (onzuiverheid), hoe beter de splitsing.
De Gini-onzuiverheid voor binaire classificatie kan worden berekend met de volgende formule:
gini=1−p02−p12=1−(mm0)2−(mm1)2Waarbij
- mi - aantal instanties van klasse i in een knoop;
- m - aantal instanties in een knoop;
- pi=mmi - kans op het kiezen van klasse i.
Voor multiclass-classificatie is de formule:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Waarbij
- C - aantal klassen.
De kwaliteit van de splitsing kan worden gemeten door de gewogen som van Gini-scores voor beide knopen die uit een splitsing zijn verkregen. Dit is de waarde die moet worden geminimaliseerd.
Om een beslissingsknoop te splitsen, moet een kenmerk en een drempelwaarde worden gevonden:
Bij een beslissingsknoop vindt het algoritme gretig de beste drempelwaarde voor elk kenmerk. Vervolgens kiest het de splitsing met de laagste Gini-onzuiverheid van alle kenmerken (bij een gelijke stand wordt willekeurig gekozen).
Entropie
De entropie is een andere maat voor de onzuiverheid. Voor een binair classificatieprobleem wordt de entropie H van een knoop berekend met de formule:
H(p)=−plog2(p)−(1−p)log2(1−p)waarbij:
- p het aandeel positieve voorbeelden (klasse 1) is;
- 1−p het aandeel negatieve voorbeelden (klasse 0) is.
Voor een multiklassen-classificatieprobleem wordt de entropie H van een knoop berekend met de formule:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)waarbij:
- k het aantal klassen is;
- pi het aandeel voorbeelden behorend tot klasse i in de knoop is.
Net als bij Gini-onzuiverheid kan de kwaliteit van een splitsing worden gemeten door de gewogen som van entropiewaarden voor de kindknopen die uit de splitsing voortkomen te berekenen. Dit is de waarde die we willen minimaliseren om de informatieopbrengst te maximaliseren.
De entropie is maximaal wanneer alle klassen gelijk vertegenwoordigd zijn. De entropie is minimaal (0) wanneer alle voorbeelden tot één klasse behoren (pure node).
Bedankt voor je feedback!