Ta Bort Avvikare Med Hjälp Av IQR-Metoden
Ett annat effektivt sätt att identifiera och ta bort avvikare är att använda interkvartilavståndet (IQR)-metoden.
Vad är IQR?
Interkvartilavståndet (IQR) är ett mått på statistisk spridning och beräknas som:
IQR=Q3−Q1Där:
- Q1: 25:e percentilen (första kvartilen);
- Q3: 75:e percentilen (tredje kvartilen).
Värden som ligger under Q1−1.5×IQR eller över Q3+1.5×IQR betraktas vanligtvis som avvikare.
Beräkning av IQR
För att beräkna IQR-värdet och identifiera avvikare behöver du först känna till värdena för 25:e och 75:e percentilen. Dessa kan erhållas med funktionen quantile()
. Därefter kan du beräkna IQR-värdet enligt formeln.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifiering av avvikare
Liknande z-score-metoden behöver du identifiera de nedre och övre gränserna:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Därefter kan du antingen välja alla avvikare för att analysera dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller skapa en dataset utan avvikare:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain why the IQR method is preferred for non-normally distributed data?
How do I interpret the results after removing outliers using IQR?
What should I do if my dataset has outliers on both the lower and upper boundaries?
Awesome!
Completion rate improved to 4
Ta Bort Avvikare Med Hjälp Av IQR-Metoden
Svep för att visa menyn
Ett annat effektivt sätt att identifiera och ta bort avvikare är att använda interkvartilavståndet (IQR)-metoden.
Vad är IQR?
Interkvartilavståndet (IQR) är ett mått på statistisk spridning och beräknas som:
IQR=Q3−Q1Där:
- Q1: 25:e percentilen (första kvartilen);
- Q3: 75:e percentilen (tredje kvartilen).
Värden som ligger under Q1−1.5×IQR eller över Q3+1.5×IQR betraktas vanligtvis som avvikare.
Beräkning av IQR
För att beräkna IQR-värdet och identifiera avvikare behöver du först känna till värdena för 25:e och 75:e percentilen. Dessa kan erhållas med funktionen quantile()
. Därefter kan du beräkna IQR-värdet enligt formeln.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifiering av avvikare
Liknande z-score-metoden behöver du identifiera de nedre och övre gränserna:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Därefter kan du antingen välja alla avvikare för att analysera dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller skapa en dataset utan avvikare:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tack för dina kommentarer!