Uppdelning av Noderna
Svep för att visa menyn
Under träningen behöver vi hitta bästa uppdelningen vid varje beslutsnod. När vi delar upp data i två noder strävar vi efter att olika klasser ska hamna i separata noder.
- Bästa scenariot: alla datapunkter i en nod tillhör samma klass;
- Sämsta scenariot: lika många datapunkter för varje klass.
Gini-oenhetlighet
För att mäta hur bra en uppdelning är kan vi beräkna Gini-oenhetligheten. Det är sannolikheten att om vi slumpmässigt tar två punkter från en nod (med återläggning), så kommer de att tillhöra olika klasser. Ju lägre denna sannolikhet (oenhetlighet) är, desto bättre är uppdelningen.
Du kan beräkna Gini-oenhetligheten för binär klassificering med följande formel:
gini=1−p02−p12=1−(mm0)2−(mm1)2Där
- mi - antal instanser av klass i i en nod;
- m - antal instanser i en nod;
- pi=mmi - sannolikheten att välja klass i.
Och för multiklassklassificering är formeln:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Där
- C - antal klasser.
Vi kan mäta hur bra uppdelningen är genom att ta den viktade summan av Gini-värden för båda noderna som erhålls från en uppdelning. Det är det värde vi vill minimera.
För att dela upp en beslutsknuta behöver vi hitta en egenskap att dela på och tröskelvärdet:
Vid ett beslutsträdets nod hittar algoritmen girigt den bästa tröskeln för varje variabel. Därefter väljer den den uppdelning med lägst Gini-orenhet av alla variabler (vid lika resultat väljs slumpmässigt).
Entropi
Entropi är ett annat mått på orenhet. För ett binärt klassificeringsproblem beräknas entropin H för en nod med formeln:
H(p)=−plog2(p)−(1−p)log2(1−p)Där:
- p är andelen positiva exempel (klass 1);
- 1−p är andelen negativa exempel (klass 0).
För ett multiklass-klassificeringsproblem beräknas entropin H för en nod med formeln:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)Där:
- k är antalet klasser;
- pi är andelen exempel som tillhör klass i i noden.
På liknande sätt som Gini-orenhet kan vi mäta hur bra en uppdelning är genom att beräkna den viktade summan av entropivärden för barnnoderna som erhålls från uppdelningen. Detta är värdet vi vill minimera för att maximera informationsvinsten.
Entropin är maximal när alla klasser är lika representerade. Den är minimal (0) när alla exempel tillhör en klass (ren nod).
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal