Glissez pour afficher le menu

Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être traitées avant le clustering. Trois méthodes de base seront abordées : l'imputation par la moyenne, l'imputation par la médiane et la suppression des lignes.

Remplissage par la moyenne

Cette méthode remplace les valeurs manquantes d'une colonne par la moyenne de ses valeurs non manquantes. Elle est simple et conserve la moyenne de la colonne.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Cependant, cette méthode peut réduire la variance et n'est pas adaptée aux données asymétriques ou aux variables catégorielles.

Remplissage par la médiane

Cette méthode remplace les valeurs manquantes par la médiane des valeurs non manquantes de la colonne. La médiane est moins sensible aux valeurs aberrantes que la moyenne, ce qui la rend préférable pour les données asymétriques ou contenant des valeurs extrêmes.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Suppression des lignes avec des valeurs manquantes

Cette méthode supprime toutes les lignes contenant des valeurs manquantes. Elle est simple et n'introduit aucune donnée imputée. Cependant, elle peut entraîner une perte de données importante et un biais si de nombreuses lignes sont supprimées ou si les valeurs manquantes ne sont pas aléatoires.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Le choix de la meilleure méthode dépend de vos données et des objectifs de votre analyse. Le fichier de code présente des exemples pratiques de chaque technique de manière plus détaillée.

Le fichier de code ci-dessous fournit des exemples pratiques de chaque technique de prétraitement abordée dans cette section, y compris la gestion des valeurs manquantes :

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Gestion des valeurs manquantes