Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitschieters Verwijderen Met Behulp van de IQR-Methode | Basisstatistische Analyse
Data-analyse met R

bookUitschieters Verwijderen Met Behulp van de IQR-Methode

Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR)-methode.

Wat is IQR?

De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt als volgt berekend:

IQR=Q3Q1IQR = Q3−Q1

Waarbij:

  • Q1Q1: 25e percentiel (eerste kwartiel);
  • Q3Q3: 75e percentiel (derde kwartiel).

Waarden die lager zijn dan Q11.5×IQRQ1 − 1.5 \times IQR of hoger dan Q3+1.5×IQRQ3 + 1.5 \times IQR worden doorgaans als uitschieters beschouwd.

IQR berekenen

Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile(). Vervolgens kun je de IQR-waarde berekenen volgens de formule.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificeren van uitschieters

Net als bij de z-score methode moet je de onder- en bovengrenzen bepalen:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Daarna kun je alle uitschieters selecteren om deze te analyseren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Of een dataset zonder uitschieters creëren:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Waar staat IQR voor?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4

bookUitschieters Verwijderen Met Behulp van de IQR-Methode

Veeg om het menu te tonen

Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR)-methode.

Wat is IQR?

De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt als volgt berekend:

IQR=Q3Q1IQR = Q3−Q1

Waarbij:

  • Q1Q1: 25e percentiel (eerste kwartiel);
  • Q3Q3: 75e percentiel (derde kwartiel).

Waarden die lager zijn dan Q11.5×IQRQ1 − 1.5 \times IQR of hoger dan Q3+1.5×IQRQ3 + 1.5 \times IQR worden doorgaans als uitschieters beschouwd.

IQR berekenen

Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile(). Vervolgens kun je de IQR-waarde berekenen volgens de formule.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificeren van uitschieters

Net als bij de z-score methode moet je de onder- en bovengrenzen bepalen:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Daarna kun je alle uitschieters selecteren om deze te analyseren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Of een dataset zonder uitschieters creëren:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Waar staat IQR voor?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 4
some-alt