Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Gestión de Datos Faltantes | Manipulación y Limpieza de Datos
Análisis de Datos con R

bookGestión de Datos Faltantes

Los datos faltantes son un problema común en los conjuntos de datos del mundo real. Pueden afectar la precisión del análisis y conducir a resultados engañosos si no se abordan adecuadamente.

Detección de valores faltantes

El primer paso es verificar dónde y cuántos datos faltan en su conjunto de datos.

is.na(df)              # returns a logical matrix of TRUE/FALSE
sum(is.na(df))         # total number of missing values
colSums(is.na(df))     # missing values per column

Esto proporciona una idea clara de qué columnas tienen datos faltantes y cuán grave es el problema.

Eliminación de valores faltantes

A veces, la forma más sencilla de tratar los datos faltantes es eliminar las filas que contienen cualquier valor NA. Esto garantiza que el conjunto de datos esté limpio, pero también puede resultar en una pérdida significativa de datos si muchas filas se ven afectadas.

Base R

La función na.omit() elimina todas las filas con valores faltantes del conjunto de datos.

df_clean <- na.omit(df)
sum(is.na(df_clean))

dplyr

La misma tarea se puede realizar utilizando la función drop_na().

df_clean <- df %>%
  drop_na()

Este enfoque es sencillo y funciona bien cuando la cantidad de datos faltantes es pequeña, pero puede no ser ideal si se eliminan muchas filas en el proceso.

Reemplazo de valores faltantes

En lugar de eliminar filas, un enfoque más efectivo es la imputación, donde los valores faltantes se reemplazan por estimaciones significativas. Esto ayuda a preservar el tamaño del conjunto de datos y a reducir el sesgo. Una estrategia común para variables numéricas es reemplazar los valores faltantes con la media de la columna.

Base R

Se puede utilizar indexación lógica con is.na() para encontrar valores faltantes y asignarles la media de la columna.

df$selling_price[is.na(df$selling_price)] <- mean(df$selling_price, na.rm = TRUE)

dplyr

También es posible realizar la imputación utilizando ifelse() dentro de mutate().

df <- df %>%
  mutate(selling_price = ifelse(is.na(selling_price),
                                mean(selling_price, na.rm = TRUE),
                                selling_price))

Relleno de valores faltantes en columnas categóricas

Para variables categóricas (columnas de tipo character o factor), los valores faltantes suelen reemplazarse por un marcador fijo como "Unknown".

Base R

df$fuel[is.na(df$fuel)] <- "Unknown"

dplyr

La función replace_na() proporciona una forma más clara de rellenar valores faltantes.

df <- df %>%
  mutate(fuel = replace_na(fuel, "Unknown"))

Este enfoque garantiza que los valores faltantes se gestionen de manera consistente y que la columna siga siendo válida para informes o modelado.

question mark

¿Cómo se reemplaza NA en la columna fuel por "Unknown"?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 10

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain the difference between removing and imputing missing values?

How do I decide whether to drop or fill missing data in my dataset?

Can you show more examples of handling missing values in R?

Awesome!

Completion rate improved to 4

bookGestión de Datos Faltantes

Desliza para mostrar el menú

Los datos faltantes son un problema común en los conjuntos de datos del mundo real. Pueden afectar la precisión del análisis y conducir a resultados engañosos si no se abordan adecuadamente.

Detección de valores faltantes

El primer paso es verificar dónde y cuántos datos faltan en su conjunto de datos.

is.na(df)              # returns a logical matrix of TRUE/FALSE
sum(is.na(df))         # total number of missing values
colSums(is.na(df))     # missing values per column

Esto proporciona una idea clara de qué columnas tienen datos faltantes y cuán grave es el problema.

Eliminación de valores faltantes

A veces, la forma más sencilla de tratar los datos faltantes es eliminar las filas que contienen cualquier valor NA. Esto garantiza que el conjunto de datos esté limpio, pero también puede resultar en una pérdida significativa de datos si muchas filas se ven afectadas.

Base R

La función na.omit() elimina todas las filas con valores faltantes del conjunto de datos.

df_clean <- na.omit(df)
sum(is.na(df_clean))

dplyr

La misma tarea se puede realizar utilizando la función drop_na().

df_clean <- df %>%
  drop_na()

Este enfoque es sencillo y funciona bien cuando la cantidad de datos faltantes es pequeña, pero puede no ser ideal si se eliminan muchas filas en el proceso.

Reemplazo de valores faltantes

En lugar de eliminar filas, un enfoque más efectivo es la imputación, donde los valores faltantes se reemplazan por estimaciones significativas. Esto ayuda a preservar el tamaño del conjunto de datos y a reducir el sesgo. Una estrategia común para variables numéricas es reemplazar los valores faltantes con la media de la columna.

Base R

Se puede utilizar indexación lógica con is.na() para encontrar valores faltantes y asignarles la media de la columna.

df$selling_price[is.na(df$selling_price)] <- mean(df$selling_price, na.rm = TRUE)

dplyr

También es posible realizar la imputación utilizando ifelse() dentro de mutate().

df <- df %>%
  mutate(selling_price = ifelse(is.na(selling_price),
                                mean(selling_price, na.rm = TRUE),
                                selling_price))

Relleno de valores faltantes en columnas categóricas

Para variables categóricas (columnas de tipo character o factor), los valores faltantes suelen reemplazarse por un marcador fijo como "Unknown".

Base R

df$fuel[is.na(df$fuel)] <- "Unknown"

dplyr

La función replace_na() proporciona una forma más clara de rellenar valores faltantes.

df <- df %>%
  mutate(fuel = replace_na(fuel, "Unknown"))

Este enfoque garantiza que los valores faltantes se gestionen de manera consistente y que la columna siga siendo válida para informes o modelado.

question mark

¿Cómo se reemplaza NA en la columna fuel por "Unknown"?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 10
some-alt