Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Ta Bort Avvikare Med Hjälp Av Z-Score-Metoden | Grundläggande Statistisk Analys
Dataanalys med R

bookTa Bort Avvikare Med Hjälp Av Z-Score-Metoden

En vanlig metod för att upptäcka och ta bort avvikare är z-score-metoden. Denna teknik identifierar hur långt en datapunkt befinner sig från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.

Vad är ett Z-värde?

Ett z-värde (även känt som standardpoäng) beräknas med formeln:

Z=XμσZ = \frac{X - \mu}{\sigma}

Där:

  • XX: det ursprungliga datapunkten;
  • μ\mu: medelvärdet för datamängden;
  • σ\sigma: standardavvikelsen för datamängden.

Beräkning av Z-värden

Du kan antingen beräkna z-värden manuellt genom att följa formeln:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Eller använda den inbyggda funktionen:

df$cgpa_zscore <- scale(df$cgpa)

Identifiera avvikare

Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Vad händer med värden med z-poäng utanför ±3?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain why the threshold of 3 is commonly used for z-scores?

How do I interpret positive and negative z-scores in my dataset?

What should I do if my data is not normally distributed?

Awesome!

Completion rate improved to 4

bookTa Bort Avvikare Med Hjälp Av Z-Score-Metoden

Svep för att visa menyn

En vanlig metod för att upptäcka och ta bort avvikare är z-score-metoden. Denna teknik identifierar hur långt en datapunkt befinner sig från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.

Vad är ett Z-värde?

Ett z-värde (även känt som standardpoäng) beräknas med formeln:

Z=XμσZ = \frac{X - \mu}{\sigma}

Där:

  • XX: det ursprungliga datapunkten;
  • μ\mu: medelvärdet för datamängden;
  • σ\sigma: standardavvikelsen för datamängden.

Beräkning av Z-värden

Du kan antingen beräkna z-värden manuellt genom att följa formeln:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Eller använda den inbyggda funktionen:

df$cgpa_zscore <- scale(df$cgpa)

Identifiera avvikare

Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

Vad händer med värden med z-poäng utanför ±3?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 3
some-alt