Section 2. Chapitre 6
single
Défi : Prétraitement du Jeu de Données
Glissez pour afficher le menu
Tâche
Swipe to start coding
Un jeu de données synthétique est stocké dans la variable data. L'objectif est de traiter les valeurs manquantes et d'encoder correctement les variables catégorielles.
Procédure à suivre :
- Remplacer les valeurs manquantes de la colonne
'Age'par la moyenne de cette colonne. Écraser la colonne d'origine avec le résultat. - Créer une instance de
OneHotEncoderet la stocker dans la variablecity_encoder. Veiller à spécifierdrop='first'pour éviter le piège des variables fictives. - Par défaut, cet encodeur retourne une matrice creuse. Pour assurer la compatibilité avec Pandas par la suite, définir le paramètre
sparse_output=False(ousparse=Falsepour les versions antérieures) lors de l'initialisation, OU ajouter.toarray()lors de la transformation des données. - Encoder les valeurs de la colonne
'City'à l'aide decity_encoder.fit_transform()et stocker le tableau résultant dans la variablecity_encoded. - Créer une instance de
OrdinalEncoderet la stocker dans la variableincome_encoder. Puisque les données présentent une hiérarchie naturelle, définir explicitement l'ordre à l'aide du paramètrecategories(noter que'Low'<'Middle'<'High'). - Encoder les valeurs de la colonne
'Income'à l'aide deincome_encoderet écraser la colonne'Income'd'origine avec le résultat.
Solution
Tout était clair ?
Merci pour vos commentaires !
Section 2. Chapitre 6
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion