Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Resumen de Datos | Manipulación y Limpieza de Datos
Análisis de Datos con R

Resumen de Datos

Desliza para mostrar el menú

Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.

Resumen rápido del conjunto de datos

Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puedes utilizar la función summary() para esto.

summary(df)

Estadísticas resumidas para una sola columna

Se pueden calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price.

Base R

Funciones dedicadas como mean(), median() y sd() disponibles. El argumento na.rm = TRUE asegura que los valores faltantes se ignoren durante el cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Cálculo de las tres estadísticas en un solo paso con la función summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumen de múltiples columnas por grupo

Frecuentemente, es útil comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.

Antes de resumir, asegurarse de que la columna mileage sea numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La función aggregate() se puede utilizar para calcular estadísticas agrupadas. La función cbind() permite resumir varias columnas numéricas a la vez.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

El agrupamiento y la resumida también se pueden realizar usando group_by() y summarise(). Este enfoque suele ser más legible y fácil de ampliar.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La función aggregate() se utiliza en R base para:

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 11

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 11
some-alt