Divisão dos Nós
Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.
- Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
- Pior cenário: número igual de pontos de dados para cada classe.
Impureza de Gini
Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.
É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:
gini=1−p02−p12=1−(mm0)2−(mm1)2Onde
- mi - número de instâncias da classe i em um nó;
- m - número de instâncias em um nó;
- pi=mmi - probabilidade de escolher a classe i.
Para classificação multiclasse, a fórmula é:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Onde
- C - número de classes.
A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.
Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:
Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).
Entropia
A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia H de um nó é calculada pela fórmula:
H(p)=−plog2(p)−(1−p)log2(1−p)onde:
- p é a proporção de exemplos positivos (classe 1);
- 1−p é a proporção de exemplos negativos (classe 0).
Para um problema de classificação multiclasse, a entropia H de um nó é calculada pela fórmula:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)onde:
- k é o número de classes;
- pi é a proporção de exemplos pertencentes à classe i no nó.
De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.
A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4.17
Divisão dos Nós
Deslize para mostrar o menu
Durante o treinamento, é necessário encontrar a melhor divisão em cada nó de decisão. Ao dividir os dados em dois nós, o objetivo é que classes diferentes fiquem em nós separados.
- Melhor cenário: todos os pontos de dados em um nó pertencem à mesma classe;
- Pior cenário: número igual de pontos de dados para cada classe.
Impureza de Gini
Para medir a qualidade de uma divisão, pode-se calcular a impureza de Gini. Trata-se da probabilidade de que, ao selecionar aleatoriamente dois pontos de um nó (com reposição), eles pertençam a classes diferentes. Quanto menor essa probabilidade (impureza), melhor a divisão.
É possível calcular a impureza de Gini para classificação binária utilizando a seguinte fórmula:
gini=1−p02−p12=1−(mm0)2−(mm1)2Onde
- mi - número de instâncias da classe i em um nó;
- m - número de instâncias em um nó;
- pi=mmi - probabilidade de escolher a classe i.
Para classificação multiclasse, a fórmula é:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Onde
- C - número de classes.
A qualidade da divisão pode ser medida pela soma ponderada dos escores de Gini para ambos os nós obtidos a partir de uma divisão. Esse é o valor que deve ser minimizado.
Para dividir um nó de decisão, é necessário encontrar uma característica para dividir e o limiar:
Em um nó de decisão, o algoritmo busca de forma gananciosa o melhor limiar para cada característica. Em seguida, escolhe a divisão com a menor impureza de Gini entre todas as características (em caso de empate, a escolha é aleatória).
Entropia
A entropia é outra medida de impureza. Para um problema de classificação binária, a entropia H de um nó é calculada pela fórmula:
H(p)=−plog2(p)−(1−p)log2(1−p)onde:
- p é a proporção de exemplos positivos (classe 1);
- 1−p é a proporção de exemplos negativos (classe 0).
Para um problema de classificação multiclasse, a entropia H de um nó é calculada pela fórmula:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)onde:
- k é o número de classes;
- pi é a proporção de exemplos pertencentes à classe i no nó.
De forma semelhante à impureza de Gini, é possível medir a qualidade de uma divisão calculando a soma ponderada dos valores de entropia para os nós filhos obtidos a partir da divisão. Este é o valor que deve ser minimizado para maximizar o ganho de informação.
A entropia é máxima quando todas as classes estão igualmente representadas. É mínima (0) quando todos os exemplos pertencem a uma única classe (nó puro).
Obrigado pelo seu feedback!