Ta Bort Avvikare Med Hjälp Av IQR-Metoden
Ett annat effektivt sätt att identifiera och ta bort avvikare är att använda interkvartilavståndet (IQR)-metoden.
Vad är IQR?
Interkvartilavståndet (IQR) är ett mått på statistisk spridning och beräknas som:
IQR=Q3−Q1Där:
- Q1: 25:e percentilen (första kvartilen);
- Q3: 75:e percentilen (tredje kvartilen).
Värden som ligger under Q1−1.5×IQR eller över Q3+1.5×IQR betraktas vanligtvis som avvikare.
Beräkning av IQR
För att beräkna IQR-värdet och identifiera avvikare behöver du först känna till värdena för 25:e och 75:e percentilen. Dessa kan erhållas med funktionen quantile()
. Därefter kan du beräkna IQR-värdet enligt formeln.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifiera avvikare
Liknande z-score-metoden behöver du identifiera de nedre och övre gränserna:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Därefter kan du antingen välja alla avvikare för att analysera dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller skapa en dataset utan avvikare:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4
Ta Bort Avvikare Med Hjälp Av IQR-Metoden
Svep för att visa menyn
Ett annat effektivt sätt att identifiera och ta bort avvikare är att använda interkvartilavståndet (IQR)-metoden.
Vad är IQR?
Interkvartilavståndet (IQR) är ett mått på statistisk spridning och beräknas som:
IQR=Q3−Q1Där:
- Q1: 25:e percentilen (första kvartilen);
- Q3: 75:e percentilen (tredje kvartilen).
Värden som ligger under Q1−1.5×IQR eller över Q3+1.5×IQR betraktas vanligtvis som avvikare.
Beräkning av IQR
För att beräkna IQR-värdet och identifiera avvikare behöver du först känna till värdena för 25:e och 75:e percentilen. Dessa kan erhållas med funktionen quantile()
. Därefter kan du beräkna IQR-värdet enligt formeln.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifiera avvikare
Liknande z-score-metoden behöver du identifiera de nedre och övre gränserna:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Därefter kan du antingen välja alla avvikare för att analysera dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller skapa en dataset utan avvikare:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tack för dina kommentarer!