Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitschieters Verwijderen Met Behulp Van De IQR-Methode | Basisstatistische Analyse
Data-analyse met R

bookUitschieters Verwijderen Met Behulp Van De IQR-Methode

Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR) methode.

Wat is IQR?

De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt berekend als:

IQR=Q3Q1IQR = Q3−Q1

Waarbij:

  • Q1Q1: 25e percentiel (eerste kwartiel);
  • Q3Q3: 75e percentiel (derde kwartiel).

Waarden die lager liggen dan Q11.5×IQRQ1 − 1.5 \times IQR of hoger dan Q3+1.5×IQRQ3 + 1.5 \times IQR worden doorgaans als uitschieters beschouwd.

IQR berekenen

Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile(). Vervolgens kun je de IQR-waarde berekenen volgens de formule.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificeren van uitschieters

Net als bij de z-score methode, moeten de onder- en bovengrenzen worden vastgesteld:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Daarna kunnen alle uitschieters geselecteerd worden om deze te analyseren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Of een dataset zonder uitschieters worden aangemaakt:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Waar staat IQR voor?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4

bookUitschieters Verwijderen Met Behulp Van De IQR-Methode

Veeg om het menu te tonen

Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR) methode.

Wat is IQR?

De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt berekend als:

IQR=Q3Q1IQR = Q3−Q1

Waarbij:

  • Q1Q1: 25e percentiel (eerste kwartiel);
  • Q3Q3: 75e percentiel (derde kwartiel).

Waarden die lager liggen dan Q11.5×IQRQ1 − 1.5 \times IQR of hoger dan Q3+1.5×IQRQ3 + 1.5 \times IQR worden doorgaans als uitschieters beschouwd.

IQR berekenen

Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile(). Vervolgens kun je de IQR-waarde berekenen volgens de formule.

q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement

Identificeren van uitschieters

Net als bij de z-score methode, moeten de onder- en bovengrenzen worden vastgesteld:

Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)

Daarna kunnen alle uitschieters geselecteerd worden om deze te analyseren:

df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]

Of een dataset zonder uitschieters worden aangemaakt:

df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
question mark

Waar staat IQR voor?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 4
some-alt