Suppression des Valeurs Aberrantes à l'Aide de la Méthode IQR
Une autre méthode efficace pour détecter et supprimer les valeurs aberrantes consiste à utiliser la plage interquartile (IQR).
Qu'est-ce que l'IQR ?
La plage interquartile (IQR) est une mesure de dispersion statistique et se calcule comme suit :
IQR=Q3−Q1Où :
- Q1 : 25e percentile (premier quartile) ;
- Q3 : 75e percentile (troisième quartile).
Les valeurs inférieures à Q1−1.5×IQR ou supérieures à Q3+1.5×IQR sont généralement considérées comme des valeurs aberrantes.
Calcul de l'IQR
Pour calculer la valeur de l'IQR et détecter les valeurs aberrantes, il est nécessaire de connaître les valeurs des 25e et 75e percentiles. Elles peuvent être obtenues avec la fonction quantile()
. Ensuite, il est possible de calculer la valeur de l'IQR en suivant la formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identification des valeurs aberrantes
De manière similaire à la méthode du score z, il est nécessaire d’identifier les bornes inférieure et supérieure :
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Vous pouvez ensuite sélectionner toutes les valeurs aberrantes pour les analyser :
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Ou créer un jeu de données sans valeurs aberrantes :
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain why the IQR method is preferred for non-normally distributed data?
How do I interpret the results after removing outliers using IQR?
What should I do if my dataset has outliers on both the lower and upper boundaries?
Awesome!
Completion rate improved to 4
Suppression des Valeurs Aberrantes à l'Aide de la Méthode IQR
Glissez pour afficher le menu
Une autre méthode efficace pour détecter et supprimer les valeurs aberrantes consiste à utiliser la plage interquartile (IQR).
Qu'est-ce que l'IQR ?
La plage interquartile (IQR) est une mesure de dispersion statistique et se calcule comme suit :
IQR=Q3−Q1Où :
- Q1 : 25e percentile (premier quartile) ;
- Q3 : 75e percentile (troisième quartile).
Les valeurs inférieures à Q1−1.5×IQR ou supérieures à Q3+1.5×IQR sont généralement considérées comme des valeurs aberrantes.
Calcul de l'IQR
Pour calculer la valeur de l'IQR et détecter les valeurs aberrantes, il est nécessaire de connaître les valeurs des 25e et 75e percentiles. Elles peuvent être obtenues avec la fonction quantile()
. Ensuite, il est possible de calculer la valeur de l'IQR en suivant la formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identification des valeurs aberrantes
De manière similaire à la méthode du score z, il est nécessaire d’identifier les bornes inférieure et supérieure :
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Vous pouvez ensuite sélectionner toutes les valeurs aberrantes pour les analyser :
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Ou créer un jeu de données sans valeurs aberrantes :
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Merci pour vos commentaires !