Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Desafio: Escolhendo o Melhor Valor de K | Classificador K-NN
Classificação com Python

bookDesafio: Escolhendo o Melhor Valor de K

Como mostrado nos capítulos anteriores, as previsões do modelo podem variar dependendo do valor de k (o número de vizinhos). Ao construir um modelo k-NN, é importante escolher o valor de k que proporciona o melhor desempenho.

Uma abordagem comum é utilizar a validação cruzada para avaliar o desempenho do modelo. É possível executar um loop e calcular as pontuações de validação cruzada para uma faixa de valores de k, selecionando aquele com a maior pontuação. Este é o método mais amplamente utilizado.

Para realizar esse procedimento, o sklearn oferece uma ferramenta conveniente: a classe GridSearchCV.

O parâmetro param_grid recebe um dicionário onde as chaves são os nomes dos parâmetros e os valores são listas de opções a serem testadas. Por exemplo, para testar valores de 1 a 99 para n_neighbors, pode-se escrever:

param_grid = {'n_neighbors': range(1, 100)}

Ao chamar o método .fit(X, y) no objeto GridSearchCV, será realizada uma busca na grade de parâmetros para encontrar os melhores parâmetros e, em seguida, reajustar o modelo em todo o conjunto de dados utilizando esses melhores parâmetros.

É possível acessar a melhor pontuação utilizando o atributo .best_score_ e fazer previsões com o modelo otimizado usando o método .predict(). Da mesma forma, pode-se recuperar o melhor modelo em si utilizando o atributo .best_estimator_.

Tarefa

Swipe to start coding

Você recebe o conjunto de dados de avaliações de Star Wars armazenado como um DataFrame na variável df.

  • Inicialize param_grid como um dicionário contendo o parâmetro n_neighbors com os valores [3, 9, 18, 27].
  • Crie um objeto GridSearchCV utilizando param_grid com validação cruzada de 4 divisões, treine-o e armazene-o na variável grid_search.
  • Recupere o melhor modelo de grid_search e armazene-o na variável best_model.
  • Recupere a pontuação do melhor modelo e armazene-a na variável best_score.

Solução

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 7
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

close

Awesome!

Completion rate improved to 4.17

bookDesafio: Escolhendo o Melhor Valor de K

Deslize para mostrar o menu

Como mostrado nos capítulos anteriores, as previsões do modelo podem variar dependendo do valor de k (o número de vizinhos). Ao construir um modelo k-NN, é importante escolher o valor de k que proporciona o melhor desempenho.

Uma abordagem comum é utilizar a validação cruzada para avaliar o desempenho do modelo. É possível executar um loop e calcular as pontuações de validação cruzada para uma faixa de valores de k, selecionando aquele com a maior pontuação. Este é o método mais amplamente utilizado.

Para realizar esse procedimento, o sklearn oferece uma ferramenta conveniente: a classe GridSearchCV.

O parâmetro param_grid recebe um dicionário onde as chaves são os nomes dos parâmetros e os valores são listas de opções a serem testadas. Por exemplo, para testar valores de 1 a 99 para n_neighbors, pode-se escrever:

param_grid = {'n_neighbors': range(1, 100)}

Ao chamar o método .fit(X, y) no objeto GridSearchCV, será realizada uma busca na grade de parâmetros para encontrar os melhores parâmetros e, em seguida, reajustar o modelo em todo o conjunto de dados utilizando esses melhores parâmetros.

É possível acessar a melhor pontuação utilizando o atributo .best_score_ e fazer previsões com o modelo otimizado usando o método .predict(). Da mesma forma, pode-se recuperar o melhor modelo em si utilizando o atributo .best_estimator_.

Tarefa

Swipe to start coding

Você recebe o conjunto de dados de avaliações de Star Wars armazenado como um DataFrame na variável df.

  • Inicialize param_grid como um dicionário contendo o parâmetro n_neighbors com os valores [3, 9, 18, 27].
  • Crie um objeto GridSearchCV utilizando param_grid com validação cruzada de 4 divisões, treine-o e armazene-o na variável grid_search.
  • Recupere o melhor modelo de grid_search e armazene-o na variável best_model.
  • Recupere a pontuação do melhor modelo e armazene-a na variável best_score.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 7
single

single

some-alt