Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Divisão dos Nós | Árvore de Decisão
Classificação com Python

bookDivisão dos Nós

Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.

  • Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
  • Pior cenário: número igual de pontos de dados para cada classe.

Impureza de Gini

Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.

É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Onde

  • mim_i - número de instâncias da classe ii em um nó;
  • mm - número de instâncias em um nó;
  • pi=mimp_i = \frac{m_i}{m} - probabilidade de escolher a classe ii.

Para classificação multiclasse, a fórmula é:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Onde

  • CC - número de classes.

A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.

Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:

Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).

Entropia

A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia HH de um nó é calculada pela fórmula:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

onde:

  • pp é a proporção de exemplos positivos (classe 1);
  • 1p1 - p é a proporção de exemplos negativos (classe 0).

Para um problema de classificação multiclasse, a entropia HH de um nó é calculada pela fórmula:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

onde:

  • kk é o número de classes;
  • pip_i é a proporção de exemplos pertencentes à classe ii no nó.

De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.

Note
Nota

A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).

question mark

Escolha uma divisão melhor.

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4.17

bookDivisão dos Nós

Deslize para mostrar o menu

Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.

  • Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
  • Pior cenário: número igual de pontos de dados para cada classe.

Impureza de Gini

Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.

É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Onde

  • mim_i - número de instâncias da classe ii em um nó;
  • mm - número de instâncias em um nó;
  • pi=mimp_i = \frac{m_i}{m} - probabilidade de escolher a classe ii.

Para classificação multiclasse, a fórmula é:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Onde

  • CC - número de classes.

A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.

Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:

Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).

Entropia

A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia HH de um nó é calculada pela fórmula:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

onde:

  • pp é a proporção de exemplos positivos (classe 1);
  • 1p1 - p é a proporção de exemplos negativos (classe 0).

Para um problema de classificação multiclasse, a entropia HH de um nó é calculada pela fórmula:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

onde:

  • kk é o número de classes;
  • pip_i é a proporção de exemplos pertencentes à classe ii no nó.

De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.

Note
Nota

A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).

question mark

Escolha uma divisão melhor.

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2
some-alt