Uitschieters Verwijderen met Behulp van de Z-Score Methode
Een veelgebruikte methode voor het detecteren en verwijderen van uitschieters is de z-score methode. Deze techniek bepaalt hoe ver een datapunt van het gemiddelde ligt in termen van standaarddeviaties. Als een datapunt buiten een bepaalde drempel (meestal ±3) valt, wordt het als een uitschieter beschouwd.
Wat is een Z-score?
Een z-score (ook wel standaardscore genoemd) wordt berekend met de formule:
Z=σX−μWaarbij:
- X: het oorspronkelijke datapunt;
- μ: het gemiddelde van de dataset;
- σ: de standaarddeviatie van de dataset.
Z-scores berekenen
Z-scores kunnen handmatig worden berekend met de volgende formule:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Of gebruik de ingebouwde functie:
df$cgpa_zscore <- scale(df$cgpa)
Identificatie van uitschieters
Na het berekenen van de z-scores kun je een drempelwaarde kiezen (±3 in dit geval) en een eenvoudige filterbewerking toepassen om alle waarden buiten dit bereik te selecteren:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Of je kunt alle waarden binnen het bereik selecteren om een dataset zonder uitschieters te creëren:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 4
Uitschieters Verwijderen met Behulp van de Z-Score Methode
Veeg om het menu te tonen
Een veelgebruikte methode voor het detecteren en verwijderen van uitschieters is de z-score methode. Deze techniek bepaalt hoe ver een datapunt van het gemiddelde ligt in termen van standaarddeviaties. Als een datapunt buiten een bepaalde drempel (meestal ±3) valt, wordt het als een uitschieter beschouwd.
Wat is een Z-score?
Een z-score (ook wel standaardscore genoemd) wordt berekend met de formule:
Z=σX−μWaarbij:
- X: het oorspronkelijke datapunt;
- μ: het gemiddelde van de dataset;
- σ: de standaarddeviatie van de dataset.
Z-scores berekenen
Z-scores kunnen handmatig worden berekend met de volgende formule:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Of gebruik de ingebouwde functie:
df$cgpa_zscore <- scale(df$cgpa)
Identificatie van uitschieters
Na het berekenen van de z-scores kun je een drempelwaarde kiezen (±3 in dit geval) en een eenvoudige filterbewerking toepassen om alle waarden buiten dit bereik te selecteren:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Of je kunt alle waarden binnen het bereik selecteren om een dataset zonder uitschieters te creëren:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Bedankt voor je feedback!