Ta Bort Avvikare Med Hjälp Av Z-Score-Metoden
En vanlig metod för att upptäcka och ta bort avvikare är z-score-metoden. Denna teknik identifierar hur långt en datapunkt är från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.
Vad är ett Z-värde?
Ett z-värde (även känt som standardpoäng) beräknas med formeln:
Z=σX−μDär:
- X: det ursprungliga datavärdet;
- μ: medelvärdet för datamängden;
- σ: standardavvikelsen för datamängden.
Beräkning av z-värden
Du kan antingen beräkna z-värden manuellt genom att följa formeln:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller använda den inbyggda funktionen:
df$cgpa_zscore <- scale(df$cgpa)
Identifiera avvikare
Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4
Ta Bort Avvikare Med Hjälp Av Z-Score-Metoden
Svep för att visa menyn
En vanlig metod för att upptäcka och ta bort avvikare är z-score-metoden. Denna teknik identifierar hur långt en datapunkt är från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.
Vad är ett Z-värde?
Ett z-värde (även känt som standardpoäng) beräknas med formeln:
Z=σX−μDär:
- X: det ursprungliga datavärdet;
- μ: medelvärdet för datamängden;
- σ: standardavvikelsen för datamängden.
Beräkning av z-värden
Du kan antingen beräkna z-värden manuellt genom att följa formeln:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Eller använda den inbyggda funktionen:
df$cgpa_zscore <- scale(df$cgpa)
Identifiera avvikare
Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Tack för dina kommentarer!