Uitschieters Verwijderen Met Behulp van de IQR-Methode
Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR)-methode.
Wat is IQR?
De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt als volgt berekend:
IQR=Q3−Q1Waarbij:
- Q1: 25e percentiel (eerste kwartiel);
- Q3: 75e percentiel (derde kwartiel).
Waarden die lager zijn dan Q1−1.5×IQR of hoger dan Q3+1.5×IQR worden doorgaans als uitschieters beschouwd.
IQR berekenen
Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile()
. Vervolgens kun je de IQR-waarde berekenen volgens de formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificeren van uitschieters
Net als bij de z-score methode moet je de onder- en bovengrenzen bepalen:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Daarna kun je alle uitschieters selecteren om deze te analyseren:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Of een dataset zonder uitschieters creëren:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 4
Uitschieters Verwijderen Met Behulp van de IQR-Methode
Veeg om het menu te tonen
Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR)-methode.
Wat is IQR?
De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt als volgt berekend:
IQR=Q3−Q1Waarbij:
- Q1: 25e percentiel (eerste kwartiel);
- Q3: 75e percentiel (derde kwartiel).
Waarden die lager zijn dan Q1−1.5×IQR of hoger dan Q3+1.5×IQR worden doorgaans als uitschieters beschouwd.
IQR berekenen
Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile()
. Vervolgens kun je de IQR-waarde berekenen volgens de formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificeren van uitschieters
Net als bij de z-score methode moet je de onder- en bovengrenzen bepalen:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Daarna kun je alle uitschieters selecteren om deze te analyseren:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Of een dataset zonder uitschieters creëren:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Bedankt voor je feedback!