Défi : Imputation des valeurs manquantes
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Ses paramètres principaux :
missing_value: valeur considérée comme manquante (par défautnp.nan) ;strategy: méthode de remplissage des valeurs manquantes ('mean'par défaut) ;fill_value: utilisé lorsquestrategy='constant'.
En tant que transformateur, elle propose des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplissage par la moyenne ;'median'— remplissage par la médiane ;'most_frequent'— remplissage par la valeur la plus fréquente ;'constant'— remplissage par une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :
imputer.fit_transform(df[['column']])
fit_transform() renvoie un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatir le résultat avec .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importer
SimpleImputer; - Créer un imputer avec
strategy='most_frequent'; - L'appliquer à
df[['sex']]; - Attribuer les valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Génial!
Completion taux amélioré à 4.55
Défi : Imputation des valeurs manquantes
Glissez pour afficher le menu
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Ses paramètres principaux :
missing_value: valeur considérée comme manquante (par défautnp.nan) ;strategy: méthode de remplissage des valeurs manquantes ('mean'par défaut) ;fill_value: utilisé lorsquestrategy='constant'.
En tant que transformateur, elle propose des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplissage par la moyenne ;'median'— remplissage par la médiane ;'most_frequent'— remplissage par la valeur la plus fréquente ;'constant'— remplissage par une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :
imputer.fit_transform(df[['column']])
fit_transform() renvoie un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatir le résultat avec .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importer
SimpleImputer; - Créer un imputer avec
strategy='most_frequent'; - L'appliquer à
df[['sex']]; - Attribuer les valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single