Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Suppression des Valeurs Aberrantes à l'Aide de la Méthode IQR | Analyse Statistique de Base
Analyse de Données avec R

bookSuppression des Valeurs Aberrantes à l'Aide de la Méthode IQR

Une autre méthode efficace pour détecter et supprimer les valeurs aberrantes consiste à utiliser la plage interquartile (IQR).

Qu'est-ce que l'IQR ?

La plage interquartile (IQR) est une mesure de dispersion statistique et se calcule comme suit :

IQR=Q3Q1IQR = Q3−Q1

Où :

  • Q1Q1 : 25e percentile (premier quartile) ;
  • Q3Q3 : 75e percentile (troisième quartile).

Les valeurs inférieures à Q11.5×IQRQ1 − 1.5 \times IQR ou supérieures à Q3+1.5×IQRQ3 + 1.5 \times IQR sont généralement considérées comme des valeurs aberrantes.

Calcul de l'IQR

Pour calculer la valeur de l'IQR et détecter les valeurs aberrantes, il est nécessaire de connaître les valeurs des 25e et 75e percentiles. Elles peuvent être obtenues avec la fonction quantile(). Ensuite, il est possible de calculer la valeur de l'IQR en suivant la formule.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identification des valeurs aberrantes

De manière similaire à la méthode du score z, il est nécessaire d’identifier les bornes inférieure et supérieure :

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Vous pouvez ensuite sélectionner toutes les valeurs aberrantes pour les analyser :

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Ou créer un jeu de données sans valeurs aberrantes :

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Que signifie IQR ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain why the IQR method is preferred for non-normally distributed data?

How do I interpret the results after removing outliers using IQR?

What should I do if my dataset has outliers on both the lower and upper boundaries?

Awesome!

Completion rate improved to 4

bookSuppression des Valeurs Aberrantes à l'Aide de la Méthode IQR

Glissez pour afficher le menu

Une autre méthode efficace pour détecter et supprimer les valeurs aberrantes consiste à utiliser la plage interquartile (IQR).

Qu'est-ce que l'IQR ?

La plage interquartile (IQR) est une mesure de dispersion statistique et se calcule comme suit :

IQR=Q3Q1IQR = Q3−Q1

Où :

  • Q1Q1 : 25e percentile (premier quartile) ;
  • Q3Q3 : 75e percentile (troisième quartile).

Les valeurs inférieures à Q11.5×IQRQ1 − 1.5 \times IQR ou supérieures à Q3+1.5×IQRQ3 + 1.5 \times IQR sont généralement considérées comme des valeurs aberrantes.

Calcul de l'IQR

Pour calculer la valeur de l'IQR et détecter les valeurs aberrantes, il est nécessaire de connaître les valeurs des 25e et 75e percentiles. Elles peuvent être obtenues avec la fonction quantile(). Ensuite, il est possible de calculer la valeur de l'IQR en suivant la formule.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identification des valeurs aberrantes

De manière similaire à la méthode du score z, il est nécessaire d’identifier les bornes inférieure et supérieure :

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Vous pouvez ensuite sélectionner toutes les valeurs aberrantes pour les analyser :

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Ou créer un jeu de données sans valeurs aberrantes :

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Que signifie IQR ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
some-alt