Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Eliminación de Valores Atípicos Utilizando el Método de Puntuación Z | Análisis Estadístico Básico
Análisis de Datos con R

bookEliminación de Valores Atípicos Utilizando el Método de Puntuación Z

Un método común para detectar y eliminar valores atípicos es el método del z-score. Esta técnica identifica cuán alejado está un punto de datos de la media en términos de desviaciones estándar. Si un punto de datos se encuentra más allá de un cierto umbral (comúnmente ±3), se considera un valor atípico.

¿Qué es un Z-Score?

Un z-score (también conocido como puntuación estándar) se calcula utilizando la siguiente fórmula:

Z=XμσZ = \frac{X - \mu}{\sigma}

Donde:

  • XX: el valor original del dato;
  • μ\mu: la media del conjunto de datos;
  • σ\sigma: la desviación estándar del conjunto de datos.

Cálculo de Z-Scores

Se pueden calcular los z-scores manualmente siguiendo la fórmula:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

O se puede utilizar la función incorporada:

df$cgpa_zscore <- scale(df$cgpa)

Identificación de valores atípicos

Después de calcular los puntajes z, se puede elegir un umbral (±3 en este caso) y aplicar una operación de filtrado simple para seleccionar todas las entradas fuera del rango:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

O se pueden seleccionar todas las entradas dentro del rango para crear un conjunto de datos sin valores atípicos:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

¿Qué sucede con los valores cuyos puntajes z superan ±3?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain why the threshold of 3 is commonly used for z-scores?

How do I interpret positive and negative z-scores in my dataset?

What should I do if my data is not normally distributed?

Awesome!

Completion rate improved to 4

bookEliminación de Valores Atípicos Utilizando el Método de Puntuación Z

Desliza para mostrar el menú

Un método común para detectar y eliminar valores atípicos es el método del z-score. Esta técnica identifica cuán alejado está un punto de datos de la media en términos de desviaciones estándar. Si un punto de datos se encuentra más allá de un cierto umbral (comúnmente ±3), se considera un valor atípico.

¿Qué es un Z-Score?

Un z-score (también conocido como puntuación estándar) se calcula utilizando la siguiente fórmula:

Z=XμσZ = \frac{X - \mu}{\sigma}

Donde:

  • XX: el valor original del dato;
  • μ\mu: la media del conjunto de datos;
  • σ\sigma: la desviación estándar del conjunto de datos.

Cálculo de Z-Scores

Se pueden calcular los z-scores manualmente siguiendo la fórmula:

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

O se puede utilizar la función incorporada:

df$cgpa_zscore <- scale(df$cgpa)

Identificación de valores atípicos

Después de calcular los puntajes z, se puede elegir un umbral (±3 en este caso) y aplicar una operación de filtrado simple para seleccionar todas las entradas fuera del rango:

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

O se pueden seleccionar todas las entradas dentro del rango para crear un conjunto de datos sin valores atípicos:

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
question mark

¿Qué sucede con los valores cuyos puntajes z superan ±3?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 3
some-alt