Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Fjernelse af Outliers ved Hjælp af Z-Score-Metoden | Grundlæggende Statistisk Analyse
Dataanalyse med R

bookFjernelse af Outliers ved Hjælp af Z-Score-Metoden

En almindelig metode til at opdage og fjerne outliers er z-score metoden. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.

Hvad er en Z-score?

En z-score (også kendt som en standard score) beregnes ved hjælp af formlen:

Z=XμσZ = \frac{X - \mu}{\sigma}

Hvor:

  • XX: det oprindelige datapunkt;
  • μ\mu: gennemsnittet af datasættet;
  • σ\sigma: standardafvigelsen for datasættet.

Beregning af Z-scores

Du kan enten beregne z-scores manuelt ved at følge formlen:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Eller du kan bruge den indbyggede funktion:

df$cgpa_zscore <- scale(df$cgpa)

Identifikation af outliers

Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Hvad sker der med værdier med z-scorer uden for ±3?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 3

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain why the threshold of 3 is commonly used for z-scores?

How do I interpret positive and negative z-scores in my dataset?

What should I do if my data is not normally distributed?

Awesome!

Completion rate improved to 4

bookFjernelse af Outliers ved Hjælp af Z-Score-Metoden

Stryg for at vise menuen

En almindelig metode til at opdage og fjerne outliers er z-score metoden. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.

Hvad er en Z-score?

En z-score (også kendt som en standard score) beregnes ved hjælp af formlen:

Z=XμσZ = \frac{X - \mu}{\sigma}

Hvor:

  • XX: det oprindelige datapunkt;
  • μ\mu: gennemsnittet af datasættet;
  • σ\sigma: standardafvigelsen for datasættet.

Beregning af Z-scores

Du kan enten beregne z-scores manuelt ved at følge formlen:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Eller du kan bruge den indbyggede funktion:

df$cgpa_zscore <- scale(df$cgpa)

Identifikation af outliers

Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Hvad sker der med værdier med z-scorer uden for ±3?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 3
some-alt