Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Suppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z | Analyse Statistique de Base
Analyse de Données avec R

bookSuppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z

Une méthode courante pour détecter et supprimer les valeurs aberrantes est la méthode du score z. Cette technique identifie à quelle distance un point de données se situe de la moyenne en termes d'écarts-types. Si un point de données dépasse un certain seuil (généralement ±3), il est considéré comme une valeur aberrante.

Qu'est-ce qu'un score z ?

Un score z (également appelé score standardisé) est calculé à l'aide de la formule :

Z=XμσZ = \frac{X - \mu}{\sigma}

Où :

  • XX : la valeur initiale du point de données ;
  • μ\mu : la moyenne de l'ensemble de données ;
  • σ\sigma : l'écart-type de l'ensemble de données.

Calcul du score z

Le calcul du score z peut se faire manuellement en suivant la formule :

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Ou en utilisant la fonction intégrée :

df$cgpa_zscore <- scale(df$cgpa)

Identification des valeurs aberrantes

Après avoir calculé les scores z, il est possible de choisir un seuil (±3 dans ce cas) et d'appliquer une opération de filtrage simple pour sélectionner toutes les entrées en dehors de cette plage :

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Ou sélectionner toutes les entrées à l'intérieur de la plage afin de créer un jeu de données sans valeurs aberrantes :

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Que se passe-t-il pour les valeurs dont les scores z dépassent ±3 ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain why the threshold of 3 is commonly used for z-scores?

How do I interpret positive and negative z-scores in my dataset?

What should I do if my data is not normally distributed?

Awesome!

Completion rate improved to 4

bookSuppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z

Glissez pour afficher le menu

Une méthode courante pour détecter et supprimer les valeurs aberrantes est la méthode du score z. Cette technique identifie à quelle distance un point de données se situe de la moyenne en termes d'écarts-types. Si un point de données dépasse un certain seuil (généralement ±3), il est considéré comme une valeur aberrante.

Qu'est-ce qu'un score z ?

Un score z (également appelé score standardisé) est calculé à l'aide de la formule :

Z=XμσZ = \frac{X - \mu}{\sigma}

Où :

  • XX : la valeur initiale du point de données ;
  • μ\mu : la moyenne de l'ensemble de données ;
  • σ\sigma : l'écart-type de l'ensemble de données.

Calcul du score z

Le calcul du score z peut se faire manuellement en suivant la formule :

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Ou en utilisant la fonction intégrée :

df$cgpa_zscore <- scale(df$cgpa)

Identification des valeurs aberrantes

Après avoir calculé les scores z, il est possible de choisir un seuil (±3 dans ce cas) et d'appliquer une opération de filtrage simple pour sélectionner toutes les entrées en dehors de cette plage :

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Ou sélectionner toutes les entrées à l'intérieur de la plage afin de créer un jeu de données sans valeurs aberrantes :

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Que se passe-t-il pour les valeurs dont les scores z dépassent ±3 ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3
some-alt