Resumen de Datos
Desliza para mostrar el menú
Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.
Resumen rápido del conjunto de datos
Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puedes utilizar la función summary() para esto.
summary(df)
Estadísticas resumidas para una sola columna
Se pueden calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price.
Base R
Funciones dedicadas como mean(), median() y sd() disponibles. El argumento na.rm = TRUE asegura que los valores faltantes se ignoren durante el cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Cálculo de las tres estadísticas en un solo paso con la función summarise().
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumen de múltiples columnas por grupo
Frecuentemente, es útil comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.
Antes de resumir, asegurarse de que la columna mileage sea numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La función aggregate() se puede utilizar para calcular estadísticas agrupadas. La función cbind() permite resumir varias columnas numéricas a la vez.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
El agrupamiento y la resumida también se pueden realizar usando group_by() y summarise(). Este enfoque suele ser más legible y fácil de ampliar.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla