Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Ta Bort Avvikare Med Hjälp Av IQR-Metoden | Grundläggande Statistisk Analys
Dataanalys med R

bookTa Bort Avvikare Med Hjälp Av IQR-Metoden

Ett annat effektivt sätt att identifiera och ta bort avvikare är att använda interkvartilavståndet (IQR)-metoden.

Vad är IQR?

Interkvartilavståndet (IQR) är ett mått på statistisk spridning och beräknas som:

IQR=Q3Q1IQR = Q3−Q1

Där:

  • Q1Q1: 25:e percentilen (första kvartilen);
  • Q3Q3: 75:e percentilen (tredje kvartilen).

Värden som ligger under Q11.5×IQRQ1 − 1.5 \times IQR eller över Q3+1.5×IQRQ3 + 1.5 \times IQR betraktas vanligtvis som avvikare.

Beräkning av IQR

För att beräkna IQR-värdet och identifiera avvikare behöver du först känna till värdena för 25:e och 75:e percentilen. Dessa kan erhållas med funktionen quantile(). Därefter kan du beräkna IQR-värdet enligt formeln.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identifiera avvikare

Liknande z-score-metoden behöver du identifiera de nedre och övre gränserna:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Därefter kan du antingen välja alla avvikare för att analysera dem:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Eller skapa en dataset utan avvikare:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Vad står IQR för?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4

bookTa Bort Avvikare Med Hjälp Av IQR-Metoden

Svep för att visa menyn

Ett annat effektivt sätt att identifiera och ta bort avvikare är att använda interkvartilavståndet (IQR)-metoden.

Vad är IQR?

Interkvartilavståndet (IQR) är ett mått på statistisk spridning och beräknas som:

IQR=Q3Q1IQR = Q3−Q1

Där:

  • Q1Q1: 25:e percentilen (första kvartilen);
  • Q3Q3: 75:e percentilen (tredje kvartilen).

Värden som ligger under Q11.5×IQRQ1 − 1.5 \times IQR eller över Q3+1.5×IQRQ3 + 1.5 \times IQR betraktas vanligtvis som avvikare.

Beräkning av IQR

För att beräkna IQR-värdet och identifiera avvikare behöver du först känna till värdena för 25:e och 75:e percentilen. Dessa kan erhållas med funktionen quantile(). Därefter kan du beräkna IQR-värdet enligt formeln.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identifiera avvikare

Liknande z-score-metoden behöver du identifiera de nedre och övre gränserna:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Därefter kan du antingen välja alla avvikare för att analysera dem:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Eller skapa en dataset utan avvikare:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Vad står IQR för?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 4
some-alt