Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Divisão dos Nós | Árvore de Decisão
Classificação com Python

bookDivisão dos Nós

Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.

  • Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
  • Pior cenário: número igual de pontos de dados para cada classe.

Impureza de Gini

Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.

É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Onde

  • mim_i - número de instâncias da classe ii em um nó;
  • mm - número de instâncias em um nó;
  • pi=mimp_i = \frac{m_i}{m} - probabilidade de escolher a classe ii.

Para classificação multiclasse, a fórmula é:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Onde

  • CC - número de classes.

A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.

Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:

Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).

Entropia

A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia HH de um nó é calculada pela fórmula:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

onde:

  • pp é a proporção de exemplos positivos (classe 1);
  • 1p1 - p é a proporção de exemplos negativos (classe 0).

Para um problema de classificação multiclasse, a entropia HH de um nó é calculada pela fórmula:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

onde:

  • kk é o número de classes;
  • pip_i é a proporção de exemplos pertencentes à classe ii no nó.

De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.

Note
Nota

A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).

question mark

Escolha uma divisão melhor.

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between Gini impurity and entropy?

How do you choose between using Gini impurity and entropy in practice?

Can you show an example calculation for Gini impurity or entropy?

Awesome!

Completion rate improved to 4.17

bookDivisão dos Nós

Deslize para mostrar o menu

Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.

  • Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
  • Pior cenário: número igual de pontos de dados para cada classe.

Impureza de Gini

Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.

É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Onde

  • mim_i - número de instâncias da classe ii em um nó;
  • mm - número de instâncias em um nó;
  • pi=mimp_i = \frac{m_i}{m} - probabilidade de escolher a classe ii.

Para classificação multiclasse, a fórmula é:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Onde

  • CC - número de classes.

A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.

Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:

Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).

Entropia

A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia HH de um nó é calculada pela fórmula:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

onde:

  • pp é a proporção de exemplos positivos (classe 1);
  • 1p1 - p é a proporção de exemplos negativos (classe 0).

Para um problema de classificação multiclasse, a entropia HH de um nó é calculada pela fórmula:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

onde:

  • kk é o número de classes;
  • pip_i é a proporção de exemplos pertencentes à classe ii no nó.

De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.

Note
Nota

A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).

question mark

Escolha uma divisão melhor.

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2
some-alt