Défi : Tout Rassembler
Dans ce défi, appliquez l'ensemble du flux de travail appris dans le cours — de la prétraitement des données à l'entraînement jusqu'à l'évaluation du modèle.





Swipe to start coding
Un jeu de données de manchots vous est fourni. Votre objectif est de construire une pipeline d'apprentissage automatique qui classifie les espèces de manchots à l'aide d'un modèle K-Nearest Neighbors (KNN), tout en gérant correctement l'encodage, les valeurs manquantes et l'optimisation des paramètres.
- Encoder la variable cible en utilisant
LabelEncoder
. - Diviser le jeu de données en ensembles d'entraînement et de test avec
test_size=0.33
. - Créer un ColumnTransformer (
ct
) qui encode uniquement les colonnes'island'
et'sex'
à l'aide d'un encodeur adapté aux données nominales (OneHotEncoder
) et laisse les autres colonnes inchangées. - Définir une grille de paramètres (
param_grid
) incluant les valeurs suivantes pourn_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Créer un objet
GridSearchCV
avecKNeighborsClassifier
comme estimateur de base etparam_grid
comme paramètres. - Construire une pipeline composée de :
- le
ColumnTransformer
(ct
); - un
SimpleImputer
(strategy ='most_frequent'
); - un
StandardScaler
; - et le
GridSearchCV
comme étape finale.
- Entraîner la pipeline en utilisant les données d'entraînement (
X_train
,y_train
). - Évaluer le modèle sur les données de test en affichant son
.score(X_test, y_test)
. - Prédire sur l'ensemble de test et afficher les 5 premières prédictions décodées à l'aide de
label_enc.inverse_transform()
. - Enfin, afficher le meilleur estimateur trouvé par
GridSearchCV
.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Défi : Tout Rassembler
Glissez pour afficher le menu
Dans ce défi, appliquez l'ensemble du flux de travail appris dans le cours — de la prétraitement des données à l'entraînement jusqu'à l'évaluation du modèle.





Swipe to start coding
Un jeu de données de manchots vous est fourni. Votre objectif est de construire une pipeline d'apprentissage automatique qui classifie les espèces de manchots à l'aide d'un modèle K-Nearest Neighbors (KNN), tout en gérant correctement l'encodage, les valeurs manquantes et l'optimisation des paramètres.
- Encoder la variable cible en utilisant
LabelEncoder
. - Diviser le jeu de données en ensembles d'entraînement et de test avec
test_size=0.33
. - Créer un ColumnTransformer (
ct
) qui encode uniquement les colonnes'island'
et'sex'
à l'aide d'un encodeur adapté aux données nominales (OneHotEncoder
) et laisse les autres colonnes inchangées. - Définir une grille de paramètres (
param_grid
) incluant les valeurs suivantes pourn_neighbors
:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Créer un objet
GridSearchCV
avecKNeighborsClassifier
comme estimateur de base etparam_grid
comme paramètres. - Construire une pipeline composée de :
- le
ColumnTransformer
(ct
); - un
SimpleImputer
(strategy ='most_frequent'
); - un
StandardScaler
; - et le
GridSearchCV
comme étape finale.
- Entraîner la pipeline en utilisant les données d'entraînement (
X_train
,y_train
). - Évaluer le modèle sur les données de test en affichant son
.score(X_test, y_test)
. - Prédire sur l'ensemble de test et afficher les 5 premières prédictions décodées à l'aide de
label_enc.inverse_transform()
. - Enfin, afficher le meilleur estimateur trouvé par
GridSearchCV
.
Solution
Merci pour vos commentaires !
single