Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Resumen de Datos | Manipulación y Limpieza de Datos
Análisis de Datos con R

bookResumen de Datos

Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.

Resumen rápido del conjunto de datos

Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puede utilizar la función summary() para esto.

summary(df)

Estadísticas resumidas para una sola columna

Puede calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price.

Base R

Existen funciones dedicadas como mean(), median() y sd() disponibles. El argumento na.rm = TRUE asegura que los valores faltantes sean ignorados durante el cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Es posible calcular las tres estadísticas en un solo paso utilizando la función summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumir múltiples columnas por grupo

A menudo, se desea comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, se puede calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.

Antes de resumir, asegúrese de que la columna mileage sea numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La función aggregate() se puede utilizar para calcular estadísticas agrupadas. La función cbind() permite resumir varias columnas numéricas a la vez.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

El agrupamiento y la resumida también se pueden realizar usando group_by() y summarise(). Este enfoque suele ser más legible y fácil de ampliar.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La función aggregate() se utiliza en base R para:

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 11

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4

bookResumen de Datos

Desliza para mostrar el menú

Resumir los datos es fundamental para obtener una comprensión rápida de su estructura y patrones.

Resumen rápido del conjunto de datos

Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puede utilizar la función summary() para esto.

summary(df)

Estadísticas resumidas para una sola columna

Puede calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna selling_price.

Base R

Existen funciones dedicadas como mean(), median() y sd() disponibles. El argumento na.rm = TRUE asegura que los valores faltantes sean ignorados durante el cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Es posible calcular las tres estadísticas en un solo paso utilizando la función summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumir múltiples columnas por grupo

A menudo, se desea comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, se puede calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.

Antes de resumir, asegúrese de que la columna mileage sea numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La función aggregate() se puede utilizar para calcular estadísticas agrupadas. La función cbind() permite resumir varias columnas numéricas a la vez.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

El agrupamiento y la resumida también se pueden realizar usando group_by() y summarise(). Este enfoque suele ser más legible y fácil de ampliar.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

La función aggregate() se utiliza en base R para:

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 11
some-alt