Ta Bort Avvikare Med Hjälp Av Z-Score-Metoden
En vanlig metod för att upptäcka och ta bort avvikare är z-score-metoden. Denna teknik identifierar hur långt en datapunkt befinner sig från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.
Vad är ett Z-värde?
Ett z-värde (även känt som standardpoäng) beräknas med formeln:
Z=σX−μDär:
- X: det ursprungliga datapunkten;
- μ: medelvärdet för datamängden;
- σ: standardavvikelsen för datamängden.
Beräkning av Z-värden
Du kan antingen beräkna z-värden manuellt genom att följa formeln:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller använda den inbyggda funktionen:
df$cgpa_zscore <- scale(df$cgpa)
Identifiera avvikare
Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain why the threshold of 3 is commonly used for z-scores?
How do I interpret positive and negative z-scores in my dataset?
What should I do if my data is not normally distributed?
Awesome!
Completion rate improved to 4
Ta Bort Avvikare Med Hjälp Av Z-Score-Metoden
Svep för att visa menyn
En vanlig metod för att upptäcka och ta bort avvikare är z-score-metoden. Denna teknik identifierar hur långt en datapunkt befinner sig från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.
Vad är ett Z-värde?
Ett z-värde (även känt som standardpoäng) beräknas med formeln:
Z=σX−μDär:
- X: det ursprungliga datapunkten;
- μ: medelvärdet för datamängden;
- σ: standardavvikelsen för datamängden.
Beräkning av Z-värden
Du kan antingen beräkna z-värden manuellt genom att följa formeln:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller använda den inbyggda funktionen:
df$cgpa_zscore <- scale(df$cgpa)
Identifiera avvikare
Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tack för dina kommentarer!