Fjernelse af Outliers ved Hjælp af Z-Score Metoden
En almindelig metode til at identificere og fjerne outliers er z-score metoden. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.
Hvad er en Z-score?
En z-score (også kendt som en standard score) beregnes ved hjælp af formlen:
Z=σX−μHvor:
- X: det oprindelige datapunkt;
- μ: gennemsnittet af datasættet;
- σ: standardafvigelsen for datasættet.
Beregning af z-scores
Du kan enten beregne z-scores manuelt ved at følge formlen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller du kan bruge den indbyggede funktion:
df$cgpa_zscore <- scale(df$cgpa)
Identifikation af outliers
Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4
Fjernelse af Outliers ved Hjælp af Z-Score Metoden
Stryg for at vise menuen
En almindelig metode til at identificere og fjerne outliers er z-score metoden. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.
Hvad er en Z-score?
En z-score (også kendt som en standard score) beregnes ved hjælp af formlen:
Z=σX−μHvor:
- X: det oprindelige datapunkt;
- μ: gennemsnittet af datasættet;
- σ: standardafvigelsen for datasættet.
Beregning af z-scores
Du kan enten beregne z-scores manuelt ved at følge formlen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller du kan bruge den indbyggede funktion:
df$cgpa_zscore <- scale(df$cgpa)
Identifikation af outliers
Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tak for dine kommentarer!