Défi : Pipeline de Prétraitement
Swipe to start coding
Vous disposez du jeu de données Titanic provenant de la bibliothèque seaborn.
Votre tâche consiste à construire un pipeline de prétraitement complet qui effectue toutes les transformations de données essentielles avant l'apprentissage automatique.
Suivez ces étapes :
- Charger le jeu de données avec
sns.load_dataset("titanic"). - Gérer les valeurs manquantes :
- Colonnes numériques → remplir avec la moyenne.
- Colonnes catégorielles → remplir avec la mode.
- Encoder les variables catégorielles
sexetembarkedà l'aide depd.get_dummies(). - Normaliser les colonnes numériques
ageetfareà l'aide deStandardScaler. - Créer une nouvelle variable
family_size = sibsp + parch + 1. - Combiner toutes les transformations dans une fonction appelée
preprocess_titanic(data)qui retourne le DataFrame final prétraité. - Assigner le jeu de données prétraité à une variable appelée
processed_data.
Afficher les 5 premières lignes du DataFrame final.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain that in simpler terms?
What are the main benefits of this approach?
Are there any common mistakes to avoid with this?
Awesome!
Completion rate improved to 8.33
Défi : Pipeline de Prétraitement
Glissez pour afficher le menu
Swipe to start coding
Vous disposez du jeu de données Titanic provenant de la bibliothèque seaborn.
Votre tâche consiste à construire un pipeline de prétraitement complet qui effectue toutes les transformations de données essentielles avant l'apprentissage automatique.
Suivez ces étapes :
- Charger le jeu de données avec
sns.load_dataset("titanic"). - Gérer les valeurs manquantes :
- Colonnes numériques → remplir avec la moyenne.
- Colonnes catégorielles → remplir avec la mode.
- Encoder les variables catégorielles
sexetembarkedà l'aide depd.get_dummies(). - Normaliser les colonnes numériques
ageetfareà l'aide deStandardScaler. - Créer une nouvelle variable
family_size = sibsp + parch + 1. - Combiner toutes les transformations dans une fonction appelée
preprocess_titanic(data)qui retourne le DataFrame final prétraité. - Assigner le jeu de données prétraité à une variable appelée
processed_data.
Afficher les 5 premières lignes du DataFrame final.
Solution
Merci pour vos commentaires !
single