Uitschieters Verwijderen Met Behulp Van De IQR-Methode
Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR) methode.
Wat is IQR?
De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt berekend als:
IQR=Q3−Q1Waarbij:
- Q1: 25e percentiel (eerste kwartiel);
- Q3: 75e percentiel (derde kwartiel).
Waarden die lager liggen dan Q1−1.5×IQR of hoger dan Q3+1.5×IQR worden doorgaans als uitschieters beschouwd.
IQR berekenen
Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile()
. Vervolgens kun je de IQR-waarde berekenen volgens de formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificeren van uitschieters
Net als bij de z-score methode, moeten de onder- en bovengrenzen worden vastgesteld:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Daarna kunnen alle uitschieters geselecteerd worden om deze te analyseren:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Of een dataset zonder uitschieters worden aangemaakt:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 4
Uitschieters Verwijderen Met Behulp Van De IQR-Methode
Veeg om het menu te tonen
Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR) methode.
Wat is IQR?
De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt berekend als:
IQR=Q3−Q1Waarbij:
- Q1: 25e percentiel (eerste kwartiel);
- Q3: 75e percentiel (derde kwartiel).
Waarden die lager liggen dan Q1−1.5×IQR of hoger dan Q3+1.5×IQR worden doorgaans als uitschieters beschouwd.
IQR berekenen
Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile()
. Vervolgens kun je de IQR-waarde berekenen volgens de formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificeren van uitschieters
Net als bij de z-score methode, moeten de onder- en bovengrenzen worden vastgesteld:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Daarna kunnen alle uitschieters geselecteerd worden om deze te analyseren:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Of een dataset zonder uitschieters worden aangemaakt:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Bedankt voor je feedback!