Desafio: Integrando Tudo
Neste desafio, aplique todo o fluxo de trabalho aprendido no curso — desde o pré-processamento dos dados até o treinamento e avaliação do modelo.
Swipe to start coding
Você recebe um conjunto de dados de pinguins. Seu objetivo é construir um pipeline de aprendizado de máquina que classifique as espécies de pinguins utilizando um modelo K-Nearest Neighbors (KNN), tratando adequadamente a codificação, valores ausentes e otimização de parâmetros.
- Codifique a variável alvo usando
LabelEncoder
. - Divida o conjunto de dados em conjuntos de treino e teste com
test_size=0.33
. - Crie um ColumnTransformer (
ct
) que codifique apenas as colunas'island'
e'sex'
utilizando um codificador apropriado para dados nominais (OneHotEncoder
) e mantenha as demais colunas inalteradas. - Defina um grid de parâmetros (
param_grid
) que inclua os seguintes valores paran_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Crie um objeto
GridSearchCV
comKNeighborsClassifier
como estimador base eparam_grid
como seus parâmetros. - Construa um pipeline composto por:
- o
ColumnTransformer
(ct
); - um
SimpleImputer
(strategy ='most_frequent'
); - um
StandardScaler
; - e o
GridSearchCV
como etapa final.
- Treine o pipeline utilizando os dados de treino (
X_train
,y_train
). - Avalie o modelo nos dados de teste imprimindo seu
.score(X_test, y_test)
. - Realize previsões no conjunto de teste e imprima as primeiras 5 previsões decodificadas usando
label_enc.inverse_transform()
. - Por fim, imprima o melhor estimador encontrado pelo
GridSearchCV
.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.13
Desafio: Integrando Tudo
Deslize para mostrar o menu
Neste desafio, aplique todo o fluxo de trabalho aprendido no curso — desde o pré-processamento dos dados até o treinamento e avaliação do modelo.
Swipe to start coding
Você recebe um conjunto de dados de pinguins. Seu objetivo é construir um pipeline de aprendizado de máquina que classifique as espécies de pinguins utilizando um modelo K-Nearest Neighbors (KNN), tratando adequadamente a codificação, valores ausentes e otimização de parâmetros.
- Codifique a variável alvo usando
LabelEncoder
. - Divida o conjunto de dados em conjuntos de treino e teste com
test_size=0.33
. - Crie um ColumnTransformer (
ct
) que codifique apenas as colunas'island'
e'sex'
utilizando um codificador apropriado para dados nominais (OneHotEncoder
) e mantenha as demais colunas inalteradas. - Defina um grid de parâmetros (
param_grid
) que inclua os seguintes valores paran_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Crie um objeto
GridSearchCV
comKNeighborsClassifier
como estimador base eparam_grid
como seus parâmetros. - Construa um pipeline composto por:
- o
ColumnTransformer
(ct
); - um
SimpleImputer
(strategy ='most_frequent'
); - um
StandardScaler
; - e o
GridSearchCV
como etapa final.
- Treine o pipeline utilizando os dados de treino (
X_train
,y_train
). - Avalie o modelo nos dados de teste imprimindo seu
.score(X_test, y_test)
. - Realize previsões no conjunto de teste e imprima as primeiras 5 previsões decodificadas usando
label_enc.inverse_transform()
. - Por fim, imprima o melhor estimador encontrado pelo
GridSearchCV
.
Solução
Obrigado pelo seu feedback!
single