Défi : Synthèse des Connaissances
Dans ce défi, appliquer l'ensemble du flux de travail appris dans le cours — de la prétraitement des données à l'entraînement jusqu'à l'évaluation du modèle.
Swipe to start coding
Vous travaillez avec un jeu de données de manchots. Votre objectif est de construire une pipeline complète d'apprentissage automatique qui classe les espèces de manchots à l'aide d'un modèle K-Nearest Neighbors (KNN). La pipeline doit gérer l'encodage des variables catégorielles, les valeurs manquantes, la normalisation des caractéristiques et l'ajustement des paramètres.
- Encoder la variable cible
yen utilisant la classeLabelEncoder. - Diviser le jeu de données en ensembles d'entraînement et de test avec
train_test_split()ettest_size=0.33. - Créer un
ColumnTransformernomméctqui applique unOneHotEncoderaux colonnes'island'et'sex', en laissant toutes les autres colonnes inchangées (remainder='passthrough'). - Définir une grille de paramètres
param_gridcontenant les valeurs suivantes pourn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], et inclure'weights'('uniform','distance') ainsi que'p'(1,2). - Créer un objet
GridSearchCVen utilisantKNeighborsClassifier()comme estimateur etparam_gridcomme grille de paramètres. - Construire une pipeline comprenant les étapes suivantes dans l'ordre :
- Le
ColumnTransformer(ct) ; - Un
SimpleImputeravec la stratégie définie sur'most_frequent'; - Un
StandardScalerpour la normalisation des caractéristiques ; - L'objet
GridSearchCVcomme étape finale.
- Entraîner la pipeline sur les données d'entraînement (
X_train,y_train) en utilisant la méthode.fit(). - Évaluer la performance du modèle en affichant le score sur le jeu de test avec
.score(X_test, y_test). - Générer des prédictions sur les données de test et afficher les 5 premiers noms de classes décodés à l'aide de
label_enc.inverse_transform(). - Afficher le meilleur estimateur trouvé par
GridSearchCVen utilisant l'attribut.best_estimator_.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Défi : Synthèse des Connaissances
Glissez pour afficher le menu
Dans ce défi, appliquer l'ensemble du flux de travail appris dans le cours — de la prétraitement des données à l'entraînement jusqu'à l'évaluation du modèle.
Swipe to start coding
Vous travaillez avec un jeu de données de manchots. Votre objectif est de construire une pipeline complète d'apprentissage automatique qui classe les espèces de manchots à l'aide d'un modèle K-Nearest Neighbors (KNN). La pipeline doit gérer l'encodage des variables catégorielles, les valeurs manquantes, la normalisation des caractéristiques et l'ajustement des paramètres.
- Encoder la variable cible
yen utilisant la classeLabelEncoder. - Diviser le jeu de données en ensembles d'entraînement et de test avec
train_test_split()ettest_size=0.33. - Créer un
ColumnTransformernomméctqui applique unOneHotEncoderaux colonnes'island'et'sex', en laissant toutes les autres colonnes inchangées (remainder='passthrough'). - Définir une grille de paramètres
param_gridcontenant les valeurs suivantes pourn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], et inclure'weights'('uniform','distance') ainsi que'p'(1,2). - Créer un objet
GridSearchCVen utilisantKNeighborsClassifier()comme estimateur etparam_gridcomme grille de paramètres. - Construire une pipeline comprenant les étapes suivantes dans l'ordre :
- Le
ColumnTransformer(ct) ; - Un
SimpleImputeravec la stratégie définie sur'most_frequent'; - Un
StandardScalerpour la normalisation des caractéristiques ; - L'objet
GridSearchCVcomme étape finale.
- Entraîner la pipeline sur les données d'entraînement (
X_train,y_train) en utilisant la méthode.fit(). - Évaluer la performance du modèle en affichant le score sur le jeu de test avec
.score(X_test, y_test). - Générer des prédictions sur les données de test et afficher les 5 premiers noms de classes décodés à l'aide de
label_enc.inverse_transform(). - Afficher le meilleur estimateur trouvé par
GridSearchCVen utilisant l'attribut.best_estimator_.
Solution
Merci pour vos commentaires !
single