Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Fjernelse af Outliers ved Hjælp af IQR-Metoden | Grundlæggende Statistisk Analyse
Dataanalyse med R

bookFjernelse af Outliers ved Hjælp af IQR-Metoden

En anden effektiv metode til at identificere og fjerne outliers er ved at anvende interkvartilafstanden (IQR)-metoden.

Hvad er IQR?

Interkvartilafstanden (IQR) er et mål for statistisk spredning og beregnes som:

IQR=Q3Q1IQR = Q3−Q1

Hvor:

  • Q1Q1: 25. percentil (første kvartil);
  • Q3Q3: 75. percentil (tredje kvartil).

Værdier, der ligger under Q11.5×IQRQ1 − 1.5 \times IQR eller over Q3+1.5×IQRQ3 + 1.5 \times IQR, betragtes typisk som outliers.

Beregning af IQR

For at beregne IQR-værdien og identificere outliers skal du først kende værdierne for 25. og 75. percentil. Disse kan opnås med funktionen quantile(). Derefter kan du beregne IQR-værdien ved at følge formlen.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificering af outliers

Ligesom med z-score metoden skal du identificere de nedre og øvre grænser:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Derefter kan du enten vælge alle outliers for at analysere dem:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Eller oprette et datasæt uden outliers:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Hvad står IQR for?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4

bookFjernelse af Outliers ved Hjælp af IQR-Metoden

Stryg for at vise menuen

En anden effektiv metode til at identificere og fjerne outliers er ved at anvende interkvartilafstanden (IQR)-metoden.

Hvad er IQR?

Interkvartilafstanden (IQR) er et mål for statistisk spredning og beregnes som:

IQR=Q3Q1IQR = Q3−Q1

Hvor:

  • Q1Q1: 25. percentil (første kvartil);
  • Q3Q3: 75. percentil (tredje kvartil).

Værdier, der ligger under Q11.5×IQRQ1 − 1.5 \times IQR eller over Q3+1.5×IQRQ3 + 1.5 \times IQR, betragtes typisk som outliers.

Beregning af IQR

For at beregne IQR-værdien og identificere outliers skal du først kende værdierne for 25. og 75. percentil. Disse kan opnås med funktionen quantile(). Derefter kan du beregne IQR-værdien ved at følge formlen.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificering af outliers

Ligesom med z-score metoden skal du identificere de nedre og øvre grænser:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Derefter kan du enten vælge alle outliers for at analysere dem:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Eller oprette et datasæt uden outliers:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Hvad står IQR for?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 4
some-alt