Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Resumo | Comparando Modelos
Classificação com Python

Resumo

Deslize para mostrar o menu

Para resumir, você aprendeu quatro algoritmos: k-NN, Regressão Logística, Árvore de Decisão e Floresta Aleatória. Cada um possui suas próprias vantagens e desvantagens, que foram discutidas ao final de suas respectivas seções.

A visualização a seguir ilustra como cada algoritmo se comporta em vários conjuntos de dados sintéticos:

comparar modelos3

Aqui, quanto mais intensa a cor, maior a confiança do modelo em suas previsões.

Você notará que cada conjunto de dados possui um modelo diferente que apresenta o melhor desempenho. É difícil saber antecipadamente qual modelo funcionará melhor, então a melhor abordagem é testar vários. Essa é a ideia por trás do Teorema No Free Lunch.

No entanto, em algumas situações, seu entendimento sobre os algoritmos pode ajudar a descartar certos modelos antecipadamente se eles não forem adequados para a tarefa.

Por exemplo, esse é o caso da Regressão Logística (sem utilizar PolynomialFeatures), que sabemos criar uma fronteira de decisão linear. Assim, ao observar a complexidade do segundo conjunto de dados na imagem, poderíamos prever antecipadamente que ela não teria um bom desempenho.

Como outro exemplo, se sua tarefa exige velocidade de previsão extremamente rápida — como fazer previsões em tempo real em um aplicativo — então k-NN é uma má escolha. O mesmo vale para uma Floresta Aleatória com muitas Árvores de Decisão. Você pode reduzir o número de árvores usando o parâmetro n_estimators para melhorar a velocidade, mas isso pode resultar em desempenho inferior.

A tabela a seguir pode ajudar a entender qual pré-processamento é necessário antes de treinar cada modelo, e como o desempenho do modelo é afetado à medida que o número de atributos ou instâncias aumenta:

  • n – número de instâncias (amostras);
  • m – número de atributos;
  • t – número de árvores em um Random Forest;
  • k – número de vizinhos no k-NN;
  • * O escalonamento não é necessário se penalty=None em Logistic Regression;
  • ** PolynomialFeatures adiciona mais atributos, então o número efetivo de atributos m aumenta.
question mark

Qual modelo utiliza múltiplas árvores de decisão para fazer uma predição?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 5. Capítulo 4
some-alt