Suppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z
Une méthode courante pour détecter et supprimer les valeurs aberrantes est la méthode du score z. Cette technique identifie à quelle distance un point de données se situe de la moyenne en termes d'écarts-types. Si un point de données dépasse un certain seuil (généralement ±3), il est considéré comme une valeur aberrante.
Qu'est-ce qu'un score z ?
Un score z (également appelé score standardisé) est calculé à l'aide de la formule :
Z=σX−μOù :
- X : la valeur initiale du point de données ;
- μ : la moyenne de l'ensemble de données ;
- σ : l'écart-type de l'ensemble de données.
Calcul du score z
Le calcul du score z peut se faire manuellement en suivant la formule :
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Ou en utilisant la fonction intégrée :
df$cgpa_zscore <- scale(df$cgpa)
Identification des valeurs aberrantes
Après avoir calculé les scores z, il est possible de choisir un seuil (±3 dans ce cas) et d'appliquer une opération de filtrage simple pour sélectionner toutes les entrées en dehors de cette plage :
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Ou sélectionner toutes les entrées à l'intérieur de la plage afin de créer un jeu de données sans valeurs aberrantes :
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain why the threshold of 3 is commonly used for z-scores?
How do I interpret positive and negative z-scores in my dataset?
What should I do if my data is not normally distributed?
Awesome!
Completion rate improved to 4
Suppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z
Glissez pour afficher le menu
Une méthode courante pour détecter et supprimer les valeurs aberrantes est la méthode du score z. Cette technique identifie à quelle distance un point de données se situe de la moyenne en termes d'écarts-types. Si un point de données dépasse un certain seuil (généralement ±3), il est considéré comme une valeur aberrante.
Qu'est-ce qu'un score z ?
Un score z (également appelé score standardisé) est calculé à l'aide de la formule :
Z=σX−μOù :
- X : la valeur initiale du point de données ;
- μ : la moyenne de l'ensemble de données ;
- σ : l'écart-type de l'ensemble de données.
Calcul du score z
Le calcul du score z peut se faire manuellement en suivant la formule :
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Ou en utilisant la fonction intégrée :
df$cgpa_zscore <- scale(df$cgpa)
Identification des valeurs aberrantes
Après avoir calculé les scores z, il est possible de choisir un seuil (±3 dans ce cas) et d'appliquer une opération de filtrage simple pour sélectionner toutes les entrées en dehors de cette plage :
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Ou sélectionner toutes les entrées à l'intérieur de la plage afin de créer un jeu de données sans valeurs aberrantes :
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Merci pour vos commentaires !