Resumen de Datos
Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.
Resumen rápido del conjunto de datos
Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puede utilizar la función summary()
para esto.
summary(df)
Estadísticas resumidas para una sola columna
Puede calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price
.
Base R
Existen funciones dedicadas como mean()
, median()
y sd()
disponibles. El argumento na.rm = TRUE
asegura que los valores faltantes sean ignorados durante el cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Es posible calcular las tres estadísticas en un solo paso utilizando la función summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumir múltiples columnas por grupo
A menudo, se desea comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, se puede calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.
Antes de resumir, asegúrese de que la columna mileage
sea numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La función aggregate()
se puede utilizar para calcular estadísticas agrupadas. La función cbind()
permite resumir varias columnas numéricas a la vez.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
El agrupamiento y la resumida también se pueden realizar usando group_by()
y summarise()
. Este enfoque suele ser más legible y fácil de ampliar.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 4
Resumen de Datos
Desliza para mostrar el menú
Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.
Resumen rápido del conjunto de datos
Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puede utilizar la función summary()
para esto.
summary(df)
Estadísticas resumidas para una sola columna
Puede calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price
.
Base R
Existen funciones dedicadas como mean()
, median()
y sd()
disponibles. El argumento na.rm = TRUE
asegura que los valores faltantes sean ignorados durante el cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Es posible calcular las tres estadísticas en un solo paso utilizando la función summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumir múltiples columnas por grupo
A menudo, se desea comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, se puede calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.
Antes de resumir, asegúrese de que la columna mileage
sea numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La función aggregate()
se puede utilizar para calcular estadísticas agrupadas. La función cbind()
permite resumir varias columnas numéricas a la vez.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
El agrupamiento y la resumida también se pueden realizar usando group_by()
y summarise()
. Este enfoque suele ser más legible y fácil de ampliar.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
¡Gracias por tus comentarios!