Gestion des Valeurs Manquantes
Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être traitées avant le clustering. Trois méthodes de base seront abordées : l’imputation par la moyenne, l’imputation par la médiane et la suppression des lignes.
Remplissage par la moyenne
Cette méthode remplace les valeurs manquantes d’une colonne par la moyenne de ses valeurs non manquantes. Elle est simple et conserve la moyenne de la colonne.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Cependant, elle peut réduire la variance et n’est pas adaptée aux données asymétriques ou aux variables catégorielles.
Remplissage par la médiane
Cette méthode remplace les valeurs manquantes par la médiane des valeurs non manquantes de la colonne. La médiane est moins sensible aux valeurs aberrantes que la moyenne, ce qui la rend préférable pour les données asymétriques ou contenant des valeurs extrêmes.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Suppression des lignes avec des valeurs manquantes
Cette méthode supprime toutes les lignes contenant des valeurs manquantes. Elle est simple et n’introduit aucune donnée imputée. Cependant, elle peut entraîner une perte de données significative et un biais si de nombreuses lignes sont supprimées ou si la présence de valeurs manquantes n’est pas aléatoire.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Le choix de la meilleure méthode dépend de vos données et des objectifs de votre analyse. Le fichier de code présente des exemples pratiques de chaque technique de manière plus détaillée.
Le fichier de code ci-dessous fournit des exemples pratiques de chaque technique de prétraitement abordée dans cette section, y compris la gestion des valeurs manquantes :
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.94
Gestion des Valeurs Manquantes
Glissez pour afficher le menu
Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être traitées avant le clustering. Trois méthodes de base seront abordées : l’imputation par la moyenne, l’imputation par la médiane et la suppression des lignes.
Remplissage par la moyenne
Cette méthode remplace les valeurs manquantes d’une colonne par la moyenne de ses valeurs non manquantes. Elle est simple et conserve la moyenne de la colonne.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Cependant, elle peut réduire la variance et n’est pas adaptée aux données asymétriques ou aux variables catégorielles.
Remplissage par la médiane
Cette méthode remplace les valeurs manquantes par la médiane des valeurs non manquantes de la colonne. La médiane est moins sensible aux valeurs aberrantes que la moyenne, ce qui la rend préférable pour les données asymétriques ou contenant des valeurs extrêmes.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Suppression des lignes avec des valeurs manquantes
Cette méthode supprime toutes les lignes contenant des valeurs manquantes. Elle est simple et n’introduit aucune donnée imputée. Cependant, elle peut entraîner une perte de données significative et un biais si de nombreuses lignes sont supprimées ou si la présence de valeurs manquantes n’est pas aléatoire.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Le choix de la meilleure méthode dépend de vos données et des objectifs de votre analyse. Le fichier de code présente des exemples pratiques de chaque technique de manière plus détaillée.
Le fichier de code ci-dessous fournit des exemples pratiques de chaque technique de prétraitement abordée dans cette section, y compris la gestion des valeurs manquantes :
Merci pour vos commentaires !