Fjernelse af Outliers ved Hjælp af IQR-Metoden
En anden effektiv metode til at identificere og fjerne outliers er ved at anvende interkvartilafstanden (IQR)-metoden.
Hvad er IQR?
Interkvartilafstanden (IQR) er et mål for statistisk spredning og beregnes som:
IQR=Q3−Q1Hvor:
- Q1: 25. percentil (første kvartil);
- Q3: 75. percentil (tredje kvartil).
Værdier, der ligger under Q1−1.5×IQR eller over Q3+1.5×IQR, betragtes typisk som outliers.
Beregning af IQR
For at beregne IQR-værdien og identificere outliers skal du først kende værdierne for 25. og 75. percentil. Disse kan opnås med funktionen quantile()
. Derefter kan du beregne IQR-værdien ved at følge formlen.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificering af outliers
Ligesom med z-score metoden skal du identificere de nedre og øvre grænser:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Derefter kan du enten vælge alle outliers for at analysere dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller oprette et datasæt uden outliers:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4
Fjernelse af Outliers ved Hjælp af IQR-Metoden
Stryg for at vise menuen
En anden effektiv metode til at identificere og fjerne outliers er ved at anvende interkvartilafstanden (IQR)-metoden.
Hvad er IQR?
Interkvartilafstanden (IQR) er et mål for statistisk spredning og beregnes som:
IQR=Q3−Q1Hvor:
- Q1: 25. percentil (første kvartil);
- Q3: 75. percentil (tredje kvartil).
Værdier, der ligger under Q1−1.5×IQR eller over Q3+1.5×IQR, betragtes typisk som outliers.
Beregning af IQR
For at beregne IQR-værdien og identificere outliers skal du først kende værdierne for 25. og 75. percentil. Disse kan opnås med funktionen quantile()
. Derefter kan du beregne IQR-værdien ved at følge formlen.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificering af outliers
Ligesom med z-score metoden skal du identificere de nedre og øvre grænser:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Derefter kan du enten vælge alle outliers for at analysere dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller oprette et datasæt uden outliers:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tak for dine kommentarer!