Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Imputation des valeurs manquantes | Prétraitement des Données avec Scikit-learn
Introduction à l'Apprentissage Automatique avec Python
Section 2. Chapitre 4
single

single

Défi : Imputation des valeurs manquantes

Glissez pour afficher le menu

La classe SimpleImputer remplace automatiquement les valeurs manquantes.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Principaux paramètres :

  • missing_value : valeur utilisée comme indicateur de données manquantes (par défaut np.nan) ;
  • strategy : méthode de remplissage des valeurs manquantes ('mean' par défaut) ;
  • fill_value : valeur utilisée lorsque strategy='constant'.

En tant que transformateur, elle propose des méthodes telles que .fit(), .transform() et .fit_transform().

Le choix de la méthode de remplissage des données manquantes est essentiel. Approche courante :

  • variables numériques → moyenne ;
  • variables catégorielles → valeur la plus fréquente.

Options pour strategy :

  • 'mean' — remplir avec la moyenne ;
  • 'median' — remplir avec la médiane ;
  • 'most_frequent' — remplir avec la valeur la plus fréquente ;
  • 'constant' — remplir avec une valeur spécifiée via fill_value.

missing_values définit quelles valeurs sont considérées comme manquantes (par défaut NaN, mais peut être '' ou un autre indicateur).

Note
Remarque

SimpleImputer attend un DataFrame, et non une Series. Une DataFrame à une seule colonne doit être sélectionnée à l'aide de doubles crochets :

imputer.fit_transform(df[['column']])

fit_transform() retourne un tableau 2D, mais l'affectation à une colonne de DataFrame nécessite un tableau 1D. Aplatir le résultat avec .ravel() :

df['column'] = imputer.fit_transform(df[['column']]).ravel()
Tâche

Glissez pour commencer à coder

Vous disposez d'un DataFrame df contenant des données sur les manchots. La colonne 'sex' comporte des valeurs manquantes. Complétez-les en utilisant la catégorie la plus fréquente.

  1. Importation de SimpleImputer ;
  2. Création d'un imputer avec strategy='most_frequent' ;
  3. Application à df[['sex']] ;
  4. Affectation des valeurs imputées à df['sex'].

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

some-alt