Suppression des Valeurs Aberrantes à l'Aide de la Méthode IQR
Une autre méthode efficace pour détecter et supprimer les valeurs aberrantes consiste à utiliser la plage interquartile (IQR).
Qu'est-ce que l'IQR ?
La plage interquartile (IQR) est une mesure de dispersion statistique et se calcule comme suit :
IQR=Q3−Q1Où :
- Q1 : 25e centile (premier quartile) ;
- Q3 : 75e centile (troisième quartile).
Les valeurs inférieures à Q1−1.5×IQR ou supérieures à Q3+1.5×IQR sont généralement considérées comme des valeurs aberrantes.
Calcul du IQR
Pour calculer la valeur de l'IQR et détecter les valeurs aberrantes, il est d'abord nécessaire de connaître les valeurs des 25e et 75e centiles. Elles peuvent être obtenues avec la fonction quantile()
. Ensuite, il est possible de calculer la valeur de l'IQR en suivant la formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identification des valeurs aberrantes
Comme pour la méthode du score z, il est nécessaire d’identifier les bornes inférieure et supérieure :
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Vous pouvez ensuite sélectionner toutes les valeurs aberrantes pour les analyser :
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Ou créer un jeu de données sans valeurs aberrantes :
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4
Suppression des Valeurs Aberrantes à l'Aide de la Méthode IQR
Glissez pour afficher le menu
Une autre méthode efficace pour détecter et supprimer les valeurs aberrantes consiste à utiliser la plage interquartile (IQR).
Qu'est-ce que l'IQR ?
La plage interquartile (IQR) est une mesure de dispersion statistique et se calcule comme suit :
IQR=Q3−Q1Où :
- Q1 : 25e centile (premier quartile) ;
- Q3 : 75e centile (troisième quartile).
Les valeurs inférieures à Q1−1.5×IQR ou supérieures à Q3+1.5×IQR sont généralement considérées comme des valeurs aberrantes.
Calcul du IQR
Pour calculer la valeur de l'IQR et détecter les valeurs aberrantes, il est d'abord nécessaire de connaître les valeurs des 25e et 75e centiles. Elles peuvent être obtenues avec la fonction quantile()
. Ensuite, il est possible de calculer la valeur de l'IQR en suivant la formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identification des valeurs aberrantes
Comme pour la méthode du score z, il est nécessaire d’identifier les bornes inférieure et supérieure :
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Vous pouvez ensuite sélectionner toutes les valeurs aberrantes pour les analyser :
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Ou créer un jeu de données sans valeurs aberrantes :
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Merci pour vos commentaires !