Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitschieters Verwijderen met Behulp van de Z-Score Methode | Basisstatistische Analyse
Data-analyse met R

bookUitschieters Verwijderen met Behulp van de Z-Score Methode

Een veelgebruikte methode voor het detecteren en verwijderen van uitschieters is de z-score methode. Deze techniek bepaalt hoe ver een datapunt van het gemiddelde ligt in termen van standaarddeviaties. Als een datapunt buiten een bepaalde drempel (meestal ±3) valt, wordt het als een uitschieter beschouwd.

Wat is een Z-score?

Een z-score (ook wel standaardscore genoemd) wordt berekend met de formule:

Z=XμσZ = \frac{X - \mu}{\sigma}

Waarbij:

  • XX: het oorspronkelijke datapunt;
  • μ\mu: het gemiddelde van de dataset;
  • σ\sigma: de standaarddeviatie van de dataset.

Z-scores berekenen

Z-scores kunnen handmatig worden berekend met de volgende formule:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Of gebruik de ingebouwde functie:

df$cgpa_zscore <- scale(df$cgpa)

Identificatie van uitschieters

Na het berekenen van de z-scores kun je een drempelwaarde kiezen (±3 in dit geval) en een eenvoudige filterbewerking toepassen om alle waarden buiten dit bereik te selecteren:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Of je kunt alle waarden binnen het bereik selecteren om een dataset zonder uitschieters te creëren:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Wat gebeurt er met waarden met z-scores buiten ±3?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4

bookUitschieters Verwijderen met Behulp van de Z-Score Methode

Veeg om het menu te tonen

Een veelgebruikte methode voor het detecteren en verwijderen van uitschieters is de z-score methode. Deze techniek bepaalt hoe ver een datapunt van het gemiddelde ligt in termen van standaarddeviaties. Als een datapunt buiten een bepaalde drempel (meestal ±3) valt, wordt het als een uitschieter beschouwd.

Wat is een Z-score?

Een z-score (ook wel standaardscore genoemd) wordt berekend met de formule:

Z=XμσZ = \frac{X - \mu}{\sigma}

Waarbij:

  • XX: het oorspronkelijke datapunt;
  • μ\mu: het gemiddelde van de dataset;
  • σ\sigma: de standaarddeviatie van de dataset.

Z-scores berekenen

Z-scores kunnen handmatig worden berekend met de volgende formule:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Of gebruik de ingebouwde functie:

df$cgpa_zscore <- scale(df$cgpa)

Identificatie van uitschieters

Na het berekenen van de z-scores kun je een drempelwaarde kiezen (±3 in dit geval) en een eenvoudige filterbewerking toepassen om alle waarden buiten dit bereik te selecteren:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Of je kunt alle waarden binnen het bereik selecteren om een dataset zonder uitschieters te creëren:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Wat gebeurt er met waarden met z-scores buiten ±3?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 3
some-alt