Eliminación de Valores Atípicos Utilizando el Método de Puntuación Z
Desliza para mostrar el menú
Un método común para detectar y eliminar valores atípicos es el método de la puntuación z. Esta técnica identifica cuán alejado está un dato de la media en términos de desviaciones estándar. Si un dato se encuentra más allá de un cierto umbral (comúnmente ±3), se considera un valor atípico.
¿Qué es una puntuación z?
Una puntuación z (también conocida como puntuación estándar) se calcula utilizando la fórmula:
Z=σX−μDonde:
- X: el dato original;
- μ: la media del conjunto de datos;
- σ: la desviación estándar del conjunto de datos.
Cálculo de puntuaciones z
Se pueden calcular las puntuaciones z manualmente siguiendo la fórmula:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
O se puede utilizar la función incorporada:
df$cgpa_zscore <- scale(df$cgpa)
Identificación de valores atípicos
Después de calcular los puntajes z, puedes elegir un umbral (±3 en este caso) y aplicar una operación de filtrado simple para seleccionar todas las entradas fuera del rango:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
O puedes seleccionar todas las entradas dentro del rango para crear un conjunto de datos sin valores atípicos:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla