Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Gestion des Valeurs Manquantes | Concepts Fondamentaux
Analyse de Clusters

bookGestion des Valeurs Manquantes

Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être traitées avant le clustering. Trois méthodes de base seront abordées : l’imputation par la moyenne, l’imputation par la médiane et la suppression des lignes.

Remplissage par la moyenne

Cette méthode remplace les valeurs manquantes d’une colonne par la moyenne de ses valeurs non manquantes. Elle est simple et conserve la moyenne de la colonne.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Cependant, elle peut réduire la variance et n’est pas adaptée aux données asymétriques ou aux variables catégorielles.

Remplissage par la médiane

Cette méthode remplace les valeurs manquantes par la médiane des valeurs non manquantes de la colonne. La médiane est moins sensible aux valeurs aberrantes que la moyenne, ce qui la rend préférable pour les données asymétriques ou contenant des valeurs extrêmes.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Suppression des lignes avec des valeurs manquantes

Cette méthode supprime toutes les lignes contenant des valeurs manquantes. Elle est simple et n’introduit aucune donnée imputée. Cependant, elle peut entraîner une perte de données significative et un biais si de nombreuses lignes sont supprimées ou si la présence de valeurs manquantes n’est pas aléatoire.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Le choix de la meilleure méthode dépend de vos données et des objectifs de votre analyse. Le fichier de code présente des exemples pratiques de chaque technique de manière plus détaillée.

Le fichier de code ci-dessous fournit des exemples pratiques de chaque technique de prétraitement abordée dans cette section, y compris la gestion des valeurs manquantes :

question mark

Quelle méthode est la plus appropriée pour traiter les valeurs manquantes dans une colonne avec des données asymétriques et des valeurs aberrantes ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.94

bookGestion des Valeurs Manquantes

Glissez pour afficher le menu

Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être traitées avant le clustering. Trois méthodes de base seront abordées : l’imputation par la moyenne, l’imputation par la médiane et la suppression des lignes.

Remplissage par la moyenne

Cette méthode remplace les valeurs manquantes d’une colonne par la moyenne de ses valeurs non manquantes. Elle est simple et conserve la moyenne de la colonne.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Cependant, elle peut réduire la variance et n’est pas adaptée aux données asymétriques ou aux variables catégorielles.

Remplissage par la médiane

Cette méthode remplace les valeurs manquantes par la médiane des valeurs non manquantes de la colonne. La médiane est moins sensible aux valeurs aberrantes que la moyenne, ce qui la rend préférable pour les données asymétriques ou contenant des valeurs extrêmes.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Suppression des lignes avec des valeurs manquantes

Cette méthode supprime toutes les lignes contenant des valeurs manquantes. Elle est simple et n’introduit aucune donnée imputée. Cependant, elle peut entraîner une perte de données significative et un biais si de nombreuses lignes sont supprimées ou si la présence de valeurs manquantes n’est pas aléatoire.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Le choix de la meilleure méthode dépend de vos données et des objectifs de votre analyse. Le fichier de code présente des exemples pratiques de chaque technique de manière plus détaillée.

Le fichier de code ci-dessous fournit des exemples pratiques de chaque technique de prétraitement abordée dans cette section, y compris la gestion des valeurs manquantes :

question mark

Quelle méthode est la plus appropriée pour traiter les valeurs manquantes dans une colonne avec des données asymétriques et des valeurs aberrantes ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1
some-alt