Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Fjerning av uteliggere ved bruk av Z-score-metoden | Grunnleggende Statistisk Analyse
Dataanalyse med R

bookFjerning av uteliggere ved bruk av Z-score-metoden

En vanlig metode for å oppdage og fjerne uteliggere er z-score-metoden. Denne teknikken identifiserer hvor langt et datapunkt er fra gjennomsnittet målt i standardavvik. Dersom et datapunkt ligger utenfor en viss terskelverdi (vanligvis ±3), regnes det som en uteligger.

Hva er en z-score?

En z-score (også kjent som en standard score) beregnes ved hjelp av formelen:

Z=XμσZ = \frac{X - \mu}{\sigma}

Hvor:

  • XX: det opprinnelige datapunktet;
  • μ\mu: gjennomsnittet av datasettet;
  • σ\sigma: standardavviket til datasettet.

Beregning av z-score

Du kan enten beregne z-score manuelt ved å følge formelen:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Eller du kan bruke den innebygde funksjonen:

df$cgpa_zscore <- scale(df$cgpa)

Identifisering av uteliggere

Etter å ha beregnet z-skårene, kan du velge en terskelverdi (±3 i dette tilfellet) og bruke en enkel filtreringsoperasjon for å velge alle oppføringer utenfor dette området:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Eller du kan velge alle oppføringer innenfor området for å lage et datasett uten uteliggere:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Hva skjer med verdier med z-skårer utenfor ±3?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4

bookFjerning av uteliggere ved bruk av Z-score-metoden

Sveip for å vise menyen

En vanlig metode for å oppdage og fjerne uteliggere er z-score-metoden. Denne teknikken identifiserer hvor langt et datapunkt er fra gjennomsnittet målt i standardavvik. Dersom et datapunkt ligger utenfor en viss terskelverdi (vanligvis ±3), regnes det som en uteligger.

Hva er en z-score?

En z-score (også kjent som en standard score) beregnes ved hjelp av formelen:

Z=XμσZ = \frac{X - \mu}{\sigma}

Hvor:

  • XX: det opprinnelige datapunktet;
  • μ\mu: gjennomsnittet av datasettet;
  • σ\sigma: standardavviket til datasettet.

Beregning av z-score

Du kan enten beregne z-score manuelt ved å følge formelen:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Eller du kan bruke den innebygde funksjonen:

df$cgpa_zscore <- scale(df$cgpa)

Identifisering av uteliggere

Etter å ha beregnet z-skårene, kan du velge en terskelverdi (±3 i dette tilfellet) og bruke en enkel filtreringsoperasjon for å velge alle oppføringer utenfor dette området:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Eller du kan velge alle oppføringer innenfor området for å lage et datasett uten uteliggere:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Hva skjer med verdier med z-skårer utenfor ±3?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 3
some-alt