single
Défi : Imputation des valeurs manquantes
Glissez pour afficher le menu
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Principaux paramètres :
missing_value: valeur utilisée comme indicateur de données manquantes (par défautnp.nan) ;strategy: méthode de remplissage des valeurs manquantes ('mean'par défaut) ;fill_value: valeur utilisée lorsquestrategy='constant'.
En tant que transformateur, elle propose des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplir avec la moyenne ;'median'— remplir avec la médiane ;'most_frequent'— remplir avec la valeur la plus fréquente ;'constant'— remplir avec une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Une DataFrame à une seule colonne doit être sélectionnée à l'aide de doubles crochets :
imputer.fit_transform(df[['column']])
fit_transform() retourne un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatir le résultat avec .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Glissez pour commencer à coder
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importation de
SimpleImputer; - Création d'un imputer avec
strategy='most_frequent'; - Application à
df[['sex']]; - Affectation des valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion