Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Resumo de Modelagem | Modelagem
Quizzes & Challenges
Quizzes
Challenges
/
Introdução ao Aprendizado de Máquina com Python

bookResumo de Modelagem

Agora você sabe como construir um modelo, usar pipelines e ajustar hiperparâmetros. Você também aprendeu dois métodos de avaliação: divisão treino-teste e validação cruzada. O próximo passo é combinar avaliação e ajuste utilizando GridSearchCV ou RandomizedSearchCV.

Note
Nota

Como nosso conjunto de dados é pequeno, utilizaremos o GridSearchCV, mas tudo o que for dito a seguir também se aplica ao RandomizedSearchCV.

Como a validação cruzada é mais estável do que uma única divisão treino-teste, o objetivo é alcançar a maior pontuação de validação cruzada. O GridSearchCV busca entre os hiperparâmetros e encontra aqueles que maximizam essa pontuação. A melhor pontuação é armazenada em .best_score_.

Note
Nota

Hiperparâmetros que funcionam melhor para um conjunto de dados podem não se generalizar quando novos dados chegam. Assim, .best_score_ pode ser maior do que o desempenho do modelo em dados totalmente inéditos.

Um fluxo de trabalho comum: dividir em conjuntos de treinamento e teste; executar validação cruzada no conjunto de treinamento para ajustar o modelo; depois avaliar o modelo otimizado no conjunto de teste para medir o desempenho no mundo real.

Para resumir:

  1. Pré-processar os dados;
  2. Dividir em conjuntos de treinamento e teste;
  3. Utilizar validação cruzada no conjunto de treinamento para encontrar a melhor configuração;
  4. Avaliar no conjunto de teste.
Note
Estude Mais

A terceira etapa geralmente envolve testar múltiplos algoritmos e ajustar seus hiperparâmetros para identificar a melhor opção. Para simplificar, apenas um único algoritmo foi utilizado neste curso.

A validação cruzada nem sempre é a melhor opção. Para conjuntos de dados grandes, calcular as pontuações de validação cruzada se torna caro, enquanto a divisão entre treino e teste se torna mais estável devido ao grande conjunto de teste.

Conjuntos de dados grandes são frequentemente divididos em conjuntos de treinamento, validação e teste. Os hiperparâmetros são escolhidos com base no desempenho no conjunto de validação. Por fim, o modelo selecionado é avaliado no conjunto de teste para verificar o quão bem ele generaliza.

O conjunto de dados dos pinguins é pequeno, com apenas 342 instâncias. Devido a esse tamanho limitado, a pontuação de validação cruzada será utilizada para avaliação no próximo capítulo.

question mark

Por que a validação cruzada é particularmente valiosa para ajuste de hiperparâmetros em conjuntos de dados menores, em oposição a conjuntos maiores onde divisões treino-teste podem ser preferidas?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

What is the difference between GridSearchCV and RandomizedSearchCV?

Can you explain how cross-validation works in more detail?

Why is cross-validation preferred for small datasets?

bookResumo de Modelagem

Deslize para mostrar o menu

Agora você sabe como construir um modelo, usar pipelines e ajustar hiperparâmetros. Você também aprendeu dois métodos de avaliação: divisão treino-teste e validação cruzada. O próximo passo é combinar avaliação e ajuste utilizando GridSearchCV ou RandomizedSearchCV.

Note
Nota

Como nosso conjunto de dados é pequeno, utilizaremos o GridSearchCV, mas tudo o que for dito a seguir também se aplica ao RandomizedSearchCV.

Como a validação cruzada é mais estável do que uma única divisão treino-teste, o objetivo é alcançar a maior pontuação de validação cruzada. O GridSearchCV busca entre os hiperparâmetros e encontra aqueles que maximizam essa pontuação. A melhor pontuação é armazenada em .best_score_.

Note
Nota

Hiperparâmetros que funcionam melhor para um conjunto de dados podem não se generalizar quando novos dados chegam. Assim, .best_score_ pode ser maior do que o desempenho do modelo em dados totalmente inéditos.

Um fluxo de trabalho comum: dividir em conjuntos de treinamento e teste; executar validação cruzada no conjunto de treinamento para ajustar o modelo; depois avaliar o modelo otimizado no conjunto de teste para medir o desempenho no mundo real.

Para resumir:

  1. Pré-processar os dados;
  2. Dividir em conjuntos de treinamento e teste;
  3. Utilizar validação cruzada no conjunto de treinamento para encontrar a melhor configuração;
  4. Avaliar no conjunto de teste.
Note
Estude Mais

A terceira etapa geralmente envolve testar múltiplos algoritmos e ajustar seus hiperparâmetros para identificar a melhor opção. Para simplificar, apenas um único algoritmo foi utilizado neste curso.

A validação cruzada nem sempre é a melhor opção. Para conjuntos de dados grandes, calcular as pontuações de validação cruzada se torna caro, enquanto a divisão entre treino e teste se torna mais estável devido ao grande conjunto de teste.

Conjuntos de dados grandes são frequentemente divididos em conjuntos de treinamento, validação e teste. Os hiperparâmetros são escolhidos com base no desempenho no conjunto de validação. Por fim, o modelo selecionado é avaliado no conjunto de teste para verificar o quão bem ele generaliza.

O conjunto de dados dos pinguins é pequeno, com apenas 342 instâncias. Devido a esse tamanho limitado, a pontuação de validação cruzada será utilizada para avaliação no próximo capítulo.

question mark

Por que a validação cruzada é particularmente valiosa para ajuste de hiperparâmetros em conjuntos de dados menores, em oposição a conjuntos maiores onde divisões treino-teste podem ser preferidas?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 9
some-alt