Resumen de Datos
Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.
Resumen rápido del conjunto de datos
Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puede utilizar la función summary()
para esto.
summary(df)
Estadísticas descriptivas para una sola columna
Puede calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price
.
Base R
Existen funciones dedicadas como mean()
, median()
y sd()
disponibles. El argumento na.rm = TRUE
garantiza que los valores faltantes sean ignorados durante el cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Es posible calcular las tres estadísticas en un solo paso utilizando la función summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumir múltiples columnas por grupo
A menudo, se requiere comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, se puede calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.
Antes de resumir, asegúrese de que la columna mileage
sea numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La función aggregate()
se puede utilizar para calcular estadísticas agrupadas. La función cbind()
permite resumir varias columnas numéricas a la vez.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
El agrupamiento y la resumida también se pueden realizar utilizando group_by()
y summarise()
. Este enfoque suele ser más legible y fácil de ampliar.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
What does the summary() function output look like?
How do I handle non-numeric columns when summarizing data?
Can you explain how to interpret the mean, median, and standard deviation results?
Awesome!
Completion rate improved to 4
Resumen de Datos
Desliza para mostrar el menú
Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.
Resumen rápido del conjunto de datos
Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puede utilizar la función summary()
para esto.
summary(df)
Estadísticas descriptivas para una sola columna
Puede calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price
.
Base R
Existen funciones dedicadas como mean()
, median()
y sd()
disponibles. El argumento na.rm = TRUE
garantiza que los valores faltantes sean ignorados durante el cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Es posible calcular las tres estadísticas en un solo paso utilizando la función summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumir múltiples columnas por grupo
A menudo, se requiere comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, se puede calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.
Antes de resumir, asegúrese de que la columna mileage
sea numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
La función aggregate()
se puede utilizar para calcular estadísticas agrupadas. La función cbind()
permite resumir varias columnas numéricas a la vez.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
El agrupamiento y la resumida también se pueden realizar utilizando group_by()
y summarise()
. Este enfoque suele ser más legible y fácil de ampliar.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
¡Gracias por tus comentarios!