Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Synthèse des Connaissances | Modélisation
Introduction au ML avec Scikit-learn

bookDéfi : Synthèse des Connaissances

Dans ce défi, appliquer l'ensemble du flux de travail appris dans le cours — de la prétraitement des données à l'entraînement jusqu'à l'évaluation du modèle.

Tâche

Swipe to start coding

Vous travaillez avec un jeu de données de manchots. Votre objectif est de construire une pipeline complète d'apprentissage automatique qui classe les espèces de manchots à l'aide d'un modèle K-Nearest Neighbors (KNN). La pipeline doit gérer l'encodage des variables catégorielles, les valeurs manquantes, la normalisation des caractéristiques et l'ajustement des paramètres.

  1. Encoder la variable cible y en utilisant la classe LabelEncoder.
  2. Diviser le jeu de données en ensembles d'entraînement et de test avec train_test_split() et test_size=0.33.
  3. Créer un ColumnTransformer nommé ct qui applique un OneHotEncoder aux colonnes 'island' et 'sex', en laissant toutes les autres colonnes inchangées (remainder='passthrough').
  4. Définir une grille de paramètres param_grid contenant les valeurs suivantes pour n_neighbors : [1, 3, 5, 7, 9, 12, 15, 20, 25], et inclure 'weights' ('uniform', 'distance') ainsi que 'p' (1, 2).
  5. Créer un objet GridSearchCV en utilisant KNeighborsClassifier() comme estimateur et param_grid comme grille de paramètres.
  6. Construire une pipeline comprenant les étapes suivantes dans l'ordre :
  • Le ColumnTransformer (ct) ;
  • Un SimpleImputer avec la stratégie définie sur 'most_frequent' ;
  • Un StandardScaler pour la normalisation des caractéristiques ;
  • L'objet GridSearchCV comme étape finale.
  1. Entraîner la pipeline sur les données d'entraînement (X_train, y_train) en utilisant la méthode .fit().
  2. Évaluer la performance du modèle en affichant le score sur le jeu de test avec .score(X_test, y_test).
  3. Générer des prédictions sur les données de test et afficher les 5 premiers noms de classes décodés à l'aide de label_enc.inverse_transform().
  4. Afficher le meilleur estimateur trouvé par GridSearchCV en utilisant l'attribut .best_estimator_.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 10
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the steps involved in the full workflow shown here?

What is the purpose of each tool or method depicted in the images?

Can you provide a summary of how these components work together in a machine learning project?

close

Awesome!

Completion rate improved to 3.13

bookDéfi : Synthèse des Connaissances

Glissez pour afficher le menu

Dans ce défi, appliquer l'ensemble du flux de travail appris dans le cours — de la prétraitement des données à l'entraînement jusqu'à l'évaluation du modèle.

Tâche

Swipe to start coding

Vous travaillez avec un jeu de données de manchots. Votre objectif est de construire une pipeline complète d'apprentissage automatique qui classe les espèces de manchots à l'aide d'un modèle K-Nearest Neighbors (KNN). La pipeline doit gérer l'encodage des variables catégorielles, les valeurs manquantes, la normalisation des caractéristiques et l'ajustement des paramètres.

  1. Encoder la variable cible y en utilisant la classe LabelEncoder.
  2. Diviser le jeu de données en ensembles d'entraînement et de test avec train_test_split() et test_size=0.33.
  3. Créer un ColumnTransformer nommé ct qui applique un OneHotEncoder aux colonnes 'island' et 'sex', en laissant toutes les autres colonnes inchangées (remainder='passthrough').
  4. Définir une grille de paramètres param_grid contenant les valeurs suivantes pour n_neighbors : [1, 3, 5, 7, 9, 12, 15, 20, 25], et inclure 'weights' ('uniform', 'distance') ainsi que 'p' (1, 2).
  5. Créer un objet GridSearchCV en utilisant KNeighborsClassifier() comme estimateur et param_grid comme grille de paramètres.
  6. Construire une pipeline comprenant les étapes suivantes dans l'ordre :
  • Le ColumnTransformer (ct) ;
  • Un SimpleImputer avec la stratégie définie sur 'most_frequent' ;
  • Un StandardScaler pour la normalisation des caractéristiques ;
  • L'objet GridSearchCV comme étape finale.
  1. Entraîner la pipeline sur les données d'entraînement (X_train, y_train) en utilisant la méthode .fit().
  2. Évaluer la performance du modèle en affichant le score sur le jeu de test avec .score(X_test, y_test).
  3. Générer des prédictions sur les données de test et afficher les 5 premiers noms de classes décodés à l'aide de label_enc.inverse_transform().
  4. Afficher le meilleur estimateur trouvé par GridSearchCV en utilisant l'attribut .best_estimator_.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 10
single

single

some-alt