Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Pipeline de Prétraitement | Ingénierie des Caractéristiques pour l'Apprentissage Automatique
Prétraitement des Données et Ingénierie des Variables

bookDéfi : Pipeline de Prétraitement

Tâche

Swipe to start coding

Vous disposez du jeu de données Titanic provenant de la bibliothèque seaborn. Votre tâche consiste à construire un pipeline de prétraitement complet qui effectue toutes les transformations de données essentielles avant l'apprentissage automatique.

Suivez ces étapes :

  1. Charger le jeu de données avec sns.load_dataset("titanic").
  2. Gérer les valeurs manquantes :
  • Colonnes numériques → remplir avec la moyenne.
  • Colonnes catégorielles → remplir avec la mode.
  1. Encoder les variables catégorielles sex et embarked à l'aide de pd.get_dummies().
  2. Normaliser les colonnes numériques age et fare à l'aide de StandardScaler.
  3. Créer une nouvelle variable family_size = sibsp + parch + 1.
  4. Combiner toutes les transformations dans une fonction appelée preprocess_titanic(data) qui retourne le DataFrame final prétraité.
  5. Assigner le jeu de données prétraité à une variable appelée processed_data.

Afficher les 5 premières lignes du DataFrame final.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain that in simpler terms?

What are the main benefits of this approach?

Are there any common mistakes to avoid with this?

close

Awesome!

Completion rate improved to 8.33

bookDéfi : Pipeline de Prétraitement

Glissez pour afficher le menu

Tâche

Swipe to start coding

Vous disposez du jeu de données Titanic provenant de la bibliothèque seaborn. Votre tâche consiste à construire un pipeline de prétraitement complet qui effectue toutes les transformations de données essentielles avant l'apprentissage automatique.

Suivez ces étapes :

  1. Charger le jeu de données avec sns.load_dataset("titanic").
  2. Gérer les valeurs manquantes :
  • Colonnes numériques → remplir avec la moyenne.
  • Colonnes catégorielles → remplir avec la mode.
  1. Encoder les variables catégorielles sex et embarked à l'aide de pd.get_dummies().
  2. Normaliser les colonnes numériques age et fare à l'aide de StandardScaler.
  3. Créer une nouvelle variable family_size = sibsp + parch + 1.
  4. Combiner toutes les transformations dans une fonction appelée preprocess_titanic(data) qui retourne le DataFrame final prétraité.
  5. Assigner le jeu de données prétraité à une variable appelée processed_data.

Afficher les 5 premières lignes du DataFrame final.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
single

single

some-alt