Knotenaufteilung
Während des Trainings müssen wir die beste Aufteilung an jedem Entscheidungs-Knoten finden. Wenn wir die Daten in zwei Knoten aufteilen, ist das Ziel, dass unterschiedliche Klassen in getrennten Knoten landen.
- Bestes Szenario: Alle Datenpunkte in einem Knoten gehören zur gleichen Klasse;
- Schlechtestes Szenario: Eine gleiche Anzahl von Datenpunkten für jede Klasse.
Gini-Impurität
Um zu messen, wie gut eine Aufteilung ist, kann die Gini-Impurität berechnet werden. Sie ist die Wahrscheinlichkeit, dass bei zufälliger Auswahl von zwei Punkten aus einem Knoten (mit Zurücklegen) diese verschiedenen Klassen angehören. Je niedriger diese Wahrscheinlichkeit (Impurität), desto besser ist die Aufteilung.
Die Gini-Unreinheit für die binäre Klassifikation lässt sich mit folgender Formel berechnen:
gini=1−p02−p12=1−(mm0)2−(mm1)2Dabei gilt:
- mi – Anzahl der Instanzen der Klasse i in einem Knoten;
- m – Anzahl der Instanzen in einem Knoten;
- pi=mmi – Wahrscheinlichkeit, die Klasse i auszuwählen.
Für die Multiklassen-Klassifikation lautet die Formel:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Dabei gilt:
- C – Anzahl der Klassen.
Die Qualität der Aufteilung lässt sich durch die gewichtete Summe der Gini-Werte für beide durch die Aufteilung entstandenen Knoten messen. Dieser Wert soll minimiert werden.
Um einen Entscheidungs-Knoten zu teilen, müssen ein Merkmal für die Aufteilung und der Schwellenwert bestimmt werden:
An einem Entscheidungs-Knoten findet der Algorithmus gierig den besten Schwellenwert für jedes Merkmal. Anschließend wählt er die Aufteilung mit der geringsten Gini-Unreinheit unter allen Merkmalen (bei Gleichstand erfolgt die Auswahl zufällig).
Entropie
Die Entropie ist ein weiteres Maß für die Unreinheit. Für ein binäres Klassifikationsproblem wird die Entropie H eines Knotens mit folgender Formel berechnet:
H(p)=−plog2(p)−(1−p)log2(1−p)wobei:
- p den Anteil der positiven Beispiele (Klasse 1) bezeichnet;
- 1−p den Anteil der negativen Beispiele (Klasse 0) bezeichnet.
Für ein multiklassiges Klassifikationsproblem wird die Entropie H eines Knotens mit folgender Formel berechnet:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)wobei:
- k die Anzahl der Klassen ist;
- pi den Anteil der Beispiele angibt, die im Knoten zur Klasse i gehören.
Ähnlich wie bei der Gini-Unreinheit kann die Qualität einer Aufteilung gemessen werden, indem die gewichtete Summe der Entropiewerte für die durch die Aufteilung entstandenen Kindknoten berechnet wird. Dieser Wert soll minimiert werden, um den Informationsgewinn zu maximieren.
Die Entropie ist maximal, wenn alle Klassen gleichmäßig vertreten sind. Sie ist minimal (0), wenn alle Beispiele zu einer Klasse gehören (reiner Knoten).
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 3.33
Knotenaufteilung
Swipe um das Menü anzuzeigen
Während des Trainings müssen wir die beste Aufteilung an jedem Entscheidungs-Knoten finden. Wenn wir die Daten in zwei Knoten aufteilen, ist das Ziel, dass unterschiedliche Klassen in getrennten Knoten landen.
- Bestes Szenario: Alle Datenpunkte in einem Knoten gehören zur gleichen Klasse;
- Schlechtestes Szenario: Eine gleiche Anzahl von Datenpunkten für jede Klasse.
Gini-Impurität
Um zu messen, wie gut eine Aufteilung ist, kann die Gini-Impurität berechnet werden. Sie ist die Wahrscheinlichkeit, dass bei zufälliger Auswahl von zwei Punkten aus einem Knoten (mit Zurücklegen) diese verschiedenen Klassen angehören. Je niedriger diese Wahrscheinlichkeit (Impurität), desto besser ist die Aufteilung.
Die Gini-Unreinheit für die binäre Klassifikation lässt sich mit folgender Formel berechnen:
gini=1−p02−p12=1−(mm0)2−(mm1)2Dabei gilt:
- mi – Anzahl der Instanzen der Klasse i in einem Knoten;
- m – Anzahl der Instanzen in einem Knoten;
- pi=mmi – Wahrscheinlichkeit, die Klasse i auszuwählen.
Für die Multiklassen-Klassifikation lautet die Formel:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Dabei gilt:
- C – Anzahl der Klassen.
Die Qualität der Aufteilung lässt sich durch die gewichtete Summe der Gini-Werte für beide durch die Aufteilung entstandenen Knoten messen. Dieser Wert soll minimiert werden.
Um einen Entscheidungs-Knoten zu teilen, müssen ein Merkmal für die Aufteilung und der Schwellenwert bestimmt werden:
An einem Entscheidungs-Knoten findet der Algorithmus gierig den besten Schwellenwert für jedes Merkmal. Anschließend wählt er die Aufteilung mit der geringsten Gini-Unreinheit unter allen Merkmalen (bei Gleichstand erfolgt die Auswahl zufällig).
Entropie
Die Entropie ist ein weiteres Maß für die Unreinheit. Für ein binäres Klassifikationsproblem wird die Entropie H eines Knotens mit folgender Formel berechnet:
H(p)=−plog2(p)−(1−p)log2(1−p)wobei:
- p den Anteil der positiven Beispiele (Klasse 1) bezeichnet;
- 1−p den Anteil der negativen Beispiele (Klasse 0) bezeichnet.
Für ein multiklassiges Klassifikationsproblem wird die Entropie H eines Knotens mit folgender Formel berechnet:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)wobei:
- k die Anzahl der Klassen ist;
- pi den Anteil der Beispiele angibt, die im Knoten zur Klasse i gehören.
Ähnlich wie bei der Gini-Unreinheit kann die Qualität einer Aufteilung gemessen werden, indem die gewichtete Summe der Entropiewerte für die durch die Aufteilung entstandenen Kindknoten berechnet wird. Dieser Wert soll minimiert werden, um den Informationsgewinn zu maximieren.
Die Entropie ist maximal, wenn alle Klassen gleichmäßig vertreten sind. Sie ist minimal (0), wenn alle Beispiele zu einer Klasse gehören (reiner Knoten).
Danke für Ihr Feedback!