Défi : Imputation des Valeurs Manquantes
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Ses paramètres principaux :
missing_value: valeur considérée comme manquante (par défautnp.nan) ;strategy: méthode de remplissage des lacunes ('mean'par défaut) ;fill_value: utilisé lorsquestrategy='constant'.
En tant que transformateur, il fournit des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Une approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplir avec la moyenne ;'median'— remplir avec la médiane ;'most_frequent'— remplir avec la valeur la plus fréquente ;'constant'— remplir avec une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :
imputer.fit_transform(df[['column']])
fit_transform() renvoie un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatissez le résultat en utilisant .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importer
SimpleImputer; - Créer un imputer avec
strategy='most_frequent'; - L'appliquer à
df[['sex']]; - Réaffecter les valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain how to use SimpleImputer with categorical data?
What happens if my data has multiple types of missing value markers?
Can you show an example of using a different strategy, like 'median'?
Awesome!
Completion rate improved to 3.13
Défi : Imputation des Valeurs Manquantes
Glissez pour afficher le menu
La classe SimpleImputer remplace automatiquement les valeurs manquantes.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Ses paramètres principaux :
missing_value: valeur considérée comme manquante (par défautnp.nan) ;strategy: méthode de remplissage des lacunes ('mean'par défaut) ;fill_value: utilisé lorsquestrategy='constant'.
En tant que transformateur, il fournit des méthodes telles que .fit(), .transform() et .fit_transform().
Le choix de la méthode de remplissage des données manquantes est essentiel. Une approche courante :
- variables numériques → moyenne ;
- variables catégorielles → valeur la plus fréquente.
Options pour strategy :
'mean'— remplir avec la moyenne ;'median'— remplir avec la médiane ;'most_frequent'— remplir avec la valeur la plus fréquente ;'constant'— remplir avec une valeur spécifiée viafill_value.
missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).
SimpleImputer attend un DataFrame, et non une Series.
Un DataFrame à une seule colonne doit être sélectionné avec une double paire de crochets :
imputer.fit_transform(df[['column']])
fit_transform() renvoie un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D.
Aplatissez le résultat en utilisant .ravel() :
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.
- Importer
SimpleImputer; - Créer un imputer avec
strategy='most_frequent'; - L'appliquer à
df[['sex']]; - Réaffecter les valeurs imputées à
df['sex'].
Solution
Merci pour vos commentaires !
single