Fjernelse af Outliers ved Hjælp af Z-Score-Metoden
En almindelig metode til at opdage og fjerne outliers er z-score metoden. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.
Hvad er en Z-score?
En z-score (også kendt som en standard score) beregnes ved hjælp af formlen:
Z=σX−μHvor:
- X: det oprindelige datapunkt;
- μ: gennemsnittet af datasættet;
- σ: standardafvigelsen for datasættet.
Beregning af Z-scores
Du kan enten beregne z-scores manuelt ved at følge formlen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller du kan bruge den indbyggede funktion:
df$cgpa_zscore <- scale(df$cgpa)
Identifikation af outliers
Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain why the threshold of 3 is commonly used for z-scores?
How do I interpret positive and negative z-scores in my dataset?
What should I do if my data is not normally distributed?
Awesome!
Completion rate improved to 4
Fjernelse af Outliers ved Hjælp af Z-Score-Metoden
Stryg for at vise menuen
En almindelig metode til at opdage og fjerne outliers er z-score metoden. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.
Hvad er en Z-score?
En z-score (også kendt som en standard score) beregnes ved hjælp af formlen:
Z=σX−μHvor:
- X: det oprindelige datapunkt;
- μ: gennemsnittet af datasættet;
- σ: standardafvigelsen for datasættet.
Beregning af Z-scores
Du kan enten beregne z-scores manuelt ved at følge formlen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller du kan bruge den indbyggede funktion:
df$cgpa_zscore <- scale(df$cgpa)
Identifikation af outliers
Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tak for dine kommentarer!