Aprenda Divisão dos Nós | Árvore de Decisão

Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.

Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
Pior cenário: número igual de pontos de dados para cada classe.

Impureza de Gini

Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.

É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:

\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Onde

$m_i$ - número de instâncias da classe $i$ em um nó;
$m$ - número de instâncias em um nó;
$p_i = \frac{m_i}{m}$ - probabilidade de escolher a classe $i$ .

Para classificação multiclasse, a fórmula é:

\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Onde

$C$ - número de classes.

A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.

Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:

Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).

Entropia

A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia $H$ de um nó é calculada pela fórmula:

H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

onde:

$p$ é a proporção de exemplos positivos (classe 1);
$1 - p$ é a proporção de exemplos negativos (classe 0).

Para um problema de classificação multiclasse, a entropia $H$ de um nó é calculada pela fórmula:

H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

onde:

$k$ é o número de classes;
$p_i$ é a proporção de exemplos pertencentes à classe $i$ no nó.

De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.

Nota

A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between Gini impurity and entropy?

How do you choose between using Gini impurity and entropy in practice?

Can you show an example calculation for Gini impurity or entropy?

Awesome!

Completion rate improved to 4.17

Deslize para mostrar o menu

Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.

Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
Pior cenário: número igual de pontos de dados para cada classe.

Impureza de Gini

É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:

\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Onde

$m_i$ - número de instâncias da classe $i$ em um nó;
$m$ - número de instâncias em um nó;
$p_i = \frac{m_i}{m}$ - probabilidade de escolher a classe $i$ .

Para classificação multiclasse, a fórmula é:

\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Onde

$C$ - número de classes.

A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.

Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:

Entropia

A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia $H$ de um nó é calculada pela fórmula:

H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

onde:

$p$ é a proporção de exemplos positivos (classe 1);
$1 - p$ é a proporção de exemplos negativos (classe 0).

Para um problema de classificação multiclasse, a entropia $H$ de um nó é calculada pela fórmula:

H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

onde:

$k$ é o número de classes;
$p_i$ é a proporção de exemplos pertencentes à classe $i$ no nó.

Nota

A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2