División de los Nodos
Durante el entrenamiento, es necesario encontrar la mejor división en cada nodo de decisión. Al dividir los datos en dos nodos, el objetivo es que las diferentes clases queden en nodos separados.
- Mejor caso: todos los puntos de datos en un nodo pertenecen a la misma clase;
- Peor caso: igual cantidad de puntos de datos para cada clase.
Impureza de Gini
Para medir la calidad de una división, se puede calcular la impureza de Gini. Es la probabilidad de que, si se toman aleatoriamente dos puntos de un nodo (con reemplazo), pertenezcan a clases diferentes. Cuanto menor sea esta probabilidad (impureza), mejor será la división.
Puede calcular la impureza de Gini para la clasificación binaria utilizando la siguiente fórmula:
gini=1−p02−p12=1−(mm0)2−(mm1)2Donde
- mi - número de instancias de la clase i en un nodo;
- m - número de instancias en un nodo;
- pi=mmi - probabilidad de elegir la clase i.
Y para la clasificación multiclase, la fórmula es:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Donde
- C - número de clases.
Se puede medir la calidad de la partición tomando la suma ponderada de los valores de Gini para ambos nodos obtenidos de una partición. Ese es el valor que se desea minimizar.
Para dividir un nodo de decisión, es necesario encontrar una característica para dividir y el umbral:
En un nodo de decisión, el algoritmo busca de manera voraz el mejor umbral para cada característica. Luego, elige la división con la menor impureza de Gini entre todas las características (si hay un empate, elige aleatoriamente).
Entropía
La entropía es otra medida de impureza. Para un problema de clasificación binaria, la entropía H de un nodo se calcula usando la fórmula:
H(p)=−plog2(p)−(1−p)log2(1−p)donde:
- p es la proporción de ejemplos positivos (clase 1);
- 1−p es la proporción de ejemplos negativos (clase 0).
Para un problema de clasificación multiclase, la entropía H de un nodo se calcula usando la fórmula:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)donde:
- k es el número de clases;
- pi es la proporción de ejemplos pertenecientes a la clase i en el nodo.
De manera similar a la impureza de Gini, se puede medir la calidad de una división calculando la suma ponderada de los valores de entropía para los nodos hijos obtenidos de la división. Este es el valor que se desea minimizar para maximizar la ganancia de información.
La entropía es máxima cuando todas las clases están representadas por igual. Es mínima (0) cuando todos los ejemplos pertenecen a una sola clase (nodo puro).
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain the difference between Gini impurity and entropy?
How do you choose between using Gini impurity and entropy in practice?
Can you show an example calculation for Gini impurity or entropy?
Awesome!
Completion rate improved to 4.17
División de los Nodos
Desliza para mostrar el menú
Durante el entrenamiento, es necesario encontrar la mejor división en cada nodo de decisión. Al dividir los datos en dos nodos, el objetivo es que las diferentes clases queden en nodos separados.
- Mejor caso: todos los puntos de datos en un nodo pertenecen a la misma clase;
- Peor caso: igual cantidad de puntos de datos para cada clase.
Impureza de Gini
Para medir la calidad de una división, se puede calcular la impureza de Gini. Es la probabilidad de que, si se toman aleatoriamente dos puntos de un nodo (con reemplazo), pertenezcan a clases diferentes. Cuanto menor sea esta probabilidad (impureza), mejor será la división.
Puede calcular la impureza de Gini para la clasificación binaria utilizando la siguiente fórmula:
gini=1−p02−p12=1−(mm0)2−(mm1)2Donde
- mi - número de instancias de la clase i en un nodo;
- m - número de instancias en un nodo;
- pi=mmi - probabilidad de elegir la clase i.
Y para la clasificación multiclase, la fórmula es:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Donde
- C - número de clases.
Se puede medir la calidad de la partición tomando la suma ponderada de los valores de Gini para ambos nodos obtenidos de una partición. Ese es el valor que se desea minimizar.
Para dividir un nodo de decisión, es necesario encontrar una característica para dividir y el umbral:
En un nodo de decisión, el algoritmo busca de manera voraz el mejor umbral para cada característica. Luego, elige la división con la menor impureza de Gini entre todas las características (si hay un empate, elige aleatoriamente).
Entropía
La entropía es otra medida de impureza. Para un problema de clasificación binaria, la entropía H de un nodo se calcula usando la fórmula:
H(p)=−plog2(p)−(1−p)log2(1−p)donde:
- p es la proporción de ejemplos positivos (clase 1);
- 1−p es la proporción de ejemplos negativos (clase 0).
Para un problema de clasificación multiclase, la entropía H de un nodo se calcula usando la fórmula:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)donde:
- k es el número de clases;
- pi es la proporción de ejemplos pertenecientes a la clase i en el nodo.
De manera similar a la impureza de Gini, se puede medir la calidad de una división calculando la suma ponderada de los valores de entropía para los nodos hijos obtenidos de la división. Este es el valor que se desea minimizar para maximizar la ganancia de información.
La entropía es máxima cuando todas las clases están representadas por igual. Es mínima (0) cuando todos los ejemplos pertenecen a una sola clase (nodo puro).
¡Gracias por tus comentarios!