Fjerning av uteliggere ved bruk av Z-score-metoden
En vanlig metode for å oppdage og fjerne uteliggere er z-score-metoden. Denne teknikken identifiserer hvor langt et datapunkt er fra gjennomsnittet målt i standardavvik. Dersom et datapunkt ligger utenfor en viss terskelverdi (vanligvis ±3), regnes det som en uteligger.
Hva er en z-score?
En z-score (også kjent som en standard score) beregnes ved hjelp av formelen:
Z=σX−μHvor:
- X: det opprinnelige datapunktet;
- μ: gjennomsnittet av datasettet;
- σ: standardavviket til datasettet.
Beregning av z-score
Du kan enten beregne z-score manuelt ved å følge formelen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller du kan bruke den innebygde funksjonen:
df$cgpa_zscore <- scale(df$cgpa)
Identifisering av uteliggere
Etter å ha beregnet z-skårene, kan du velge en terskelverdi (±3 i dette tilfellet) og bruke en enkel filtreringsoperasjon for å velge alle oppføringer utenfor dette området:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller du kan velge alle oppføringer innenfor området for å lage et datasett uten uteliggere:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 4
Fjerning av uteliggere ved bruk av Z-score-metoden
Sveip for å vise menyen
En vanlig metode for å oppdage og fjerne uteliggere er z-score-metoden. Denne teknikken identifiserer hvor langt et datapunkt er fra gjennomsnittet målt i standardavvik. Dersom et datapunkt ligger utenfor en viss terskelverdi (vanligvis ±3), regnes det som en uteligger.
Hva er en z-score?
En z-score (også kjent som en standard score) beregnes ved hjelp av formelen:
Z=σX−μHvor:
- X: det opprinnelige datapunktet;
- μ: gjennomsnittet av datasettet;
- σ: standardavviket til datasettet.
Beregning av z-score
Du kan enten beregne z-score manuelt ved å følge formelen:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller du kan bruke den innebygde funksjonen:
df$cgpa_zscore <- scale(df$cgpa)
Identifisering av uteliggere
Etter å ha beregnet z-skårene, kan du velge en terskelverdi (±3 i dette tilfellet) og bruke en enkel filtreringsoperasjon for å velge alle oppføringer utenfor dette området:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller du kan velge alle oppføringer innenfor området for å lage et datasett uten uteliggere:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Takk for tilbakemeldingene dine!