Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende División de los Nodos | Árbol de Decisión
Clasificación con Python

bookDivisión de los Nodos

Durante el entrenamiento, es necesario encontrar la mejor división en cada nodo de decisión. Al dividir los datos en dos nodos, el objetivo es que las diferentes clases queden en nodos separados.

  • Mejor caso: todos los puntos de datos en un nodo pertenecen a la misma clase;
  • Peor caso: igual cantidad de puntos de datos para cada clase.

Impureza de Gini

Para medir la calidad de una división, se puede calcular la impureza de Gini. Es la probabilidad de que, si se toman aleatoriamente dos puntos de un nodo (con reemplazo), pertenezcan a clases diferentes. Cuanto menor sea esta probabilidad (impureza), mejor será la división.

Puede calcular la impureza de Gini para la clasificación binaria utilizando la siguiente fórmula:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Donde

  • mim_i - número de instancias de la clase ii en un nodo;
  • mm - número de instancias en un nodo;
  • pi=mimp_i = \frac{m_i}{m} - probabilidad de elegir la clase ii.

Y para la clasificación multiclase, la fórmula es:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Donde

  • CC - número de clases.

Se puede medir la calidad de la partición tomando la suma ponderada de los valores de Gini para ambos nodos obtenidos de una partición. Ese es el valor que se desea minimizar.

Para dividir un nodo de decisión, es necesario encontrar una característica para dividir y el umbral:

En un nodo de decisión, el algoritmo busca de manera voraz el mejor umbral para cada característica. Luego, elige la división con la menor impureza de Gini entre todas las características (si hay un empate, elige aleatoriamente).

Entropía

La entropía es otra medida de impureza. Para un problema de clasificación binaria, la entropía HH de un nodo se calcula usando la fórmula:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

donde:

  • pp es la proporción de ejemplos positivos (clase 1);
  • 1p1 - p es la proporción de ejemplos negativos (clase 0).

Para un problema de clasificación multiclase, la entropía HH de un nodo se calcula usando la fórmula:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

donde:

  • kk es el número de clases;
  • pip_i es la proporción de ejemplos pertenecientes a la clase ii en el nodo.

De manera similar a la impureza de Gini, se puede medir la calidad de una división calculando la suma ponderada de los valores de entropía para los nodos hijos obtenidos de la división. Este es el valor que se desea minimizar para maximizar la ganancia de información.

Note
Nota

La entropía es máxima cuando todas las clases están representadas por igual. Es mínima (0) cuando todos los ejemplos pertenecen a una sola clase (nodo puro).

question mark

Elige una mejor división.

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the difference between Gini impurity and entropy?

How do you choose between using Gini impurity and entropy in practice?

Can you show an example calculation for Gini impurity or entropy?

Awesome!

Completion rate improved to 4.17

bookDivisión de los Nodos

Desliza para mostrar el menú

Durante el entrenamiento, es necesario encontrar la mejor división en cada nodo de decisión. Al dividir los datos en dos nodos, el objetivo es que las diferentes clases queden en nodos separados.

  • Mejor caso: todos los puntos de datos en un nodo pertenecen a la misma clase;
  • Peor caso: igual cantidad de puntos de datos para cada clase.

Impureza de Gini

Para medir la calidad de una división, se puede calcular la impureza de Gini. Es la probabilidad de que, si se toman aleatoriamente dos puntos de un nodo (con reemplazo), pertenezcan a clases diferentes. Cuanto menor sea esta probabilidad (impureza), mejor será la división.

Puede calcular la impureza de Gini para la clasificación binaria utilizando la siguiente fórmula:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Donde

  • mim_i - número de instancias de la clase ii en un nodo;
  • mm - número de instancias en un nodo;
  • pi=mimp_i = \frac{m_i}{m} - probabilidad de elegir la clase ii.

Y para la clasificación multiclase, la fórmula es:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Donde

  • CC - número de clases.

Se puede medir la calidad de la partición tomando la suma ponderada de los valores de Gini para ambos nodos obtenidos de una partición. Ese es el valor que se desea minimizar.

Para dividir un nodo de decisión, es necesario encontrar una característica para dividir y el umbral:

En un nodo de decisión, el algoritmo busca de manera voraz el mejor umbral para cada característica. Luego, elige la división con la menor impureza de Gini entre todas las características (si hay un empate, elige aleatoriamente).

Entropía

La entropía es otra medida de impureza. Para un problema de clasificación binaria, la entropía HH de un nodo se calcula usando la fórmula:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

donde:

  • pp es la proporción de ejemplos positivos (clase 1);
  • 1p1 - p es la proporción de ejemplos negativos (clase 0).

Para un problema de clasificación multiclase, la entropía HH de un nodo se calcula usando la fórmula:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

donde:

  • kk es el número de clases;
  • pip_i es la proporción de ejemplos pertenecientes a la clase ii en el nodo.

De manera similar a la impureza de Gini, se puede medir la calidad de una división calculando la suma ponderada de los valores de entropía para los nodos hijos obtenidos de la división. Este es el valor que se desea minimizar para maximizar la ganancia de información.

Note
Nota

La entropía es máxima cuando todas las clases están representadas por igual. Es mínima (0) cuando todos los ejemplos pertenecen a una sola clase (nodo puro).

question mark

Elige una mejor división.

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 2
some-alt