Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Resumir los datos** es fundamental para obtener una comprensión rápida de su estructura y patrones.

## Resumen rápido del conjunto de datos
Antes de realizar un análisis detallado, es útil generar una visión general rápida del conjunto de datos. Esto ayuda a comprender los rangos, distribuciones y la presencia de valores categóricos de un vistazo. Puedes utilizar la función `summary()` para esto.
```
summary(df)
```

## Estadísticas resumidas para una sola columna
Se pueden calcular estadísticas descriptivas básicas como la media, la mediana y la desviación estándar para columnas individuales. Por ejemplo, así se resume la columna `selling_price`.

### Base R
Funciones dedicadas como `mean()`, `median()` y `sd()` disponibles. El argumento `na.rm = TRUE` asegura que los valores faltantes se ignoren durante el cálculo.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Cálculo de las tres estadísticas en un solo paso con la función `summarise()`.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Resumen de múltiples columnas por grupo

Frecuentemente, es útil comparar estadísticas resumidas entre diferentes grupos en el conjunto de datos. Por ejemplo, calcular el precio de venta promedio y el kilometraje promedio para cada tipo de combustible.

Antes de resumir, asegurarse de que la columna `mileage` sea numérica:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
La función `aggregate()` se puede utilizar para calcular estadísticas agrupadas. La función `cbind()` permite resumir varias columnas numéricas a la vez.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
El agrupamiento y la resumida también se pueden realizar usando `group_by()` y `summarise()`. Este enfoque suele ser más legible y fácil de ampliar.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Descargar conjunto de datos

Descargar código del capítulo

La función `aggregate()` se utiliza en R base para:


Adquiera experiencia práctica en análisis de datos con R aprendiendo a limpiar, transformar y visualizar conjuntos de datos. Explore flujos de trabajo esenciales como la selección y filtrado de datos, el manejo de valores faltantes y la síntesis de resultados. Desarrolle confianza en la preparación de datos para obtener información, generar informes y realizar exploraciones estadísticas más profundas.

Explore los fundamentos del análisis de datos con R. Aprenda a instalar las herramientas, cargar e inspeccionar conjuntos de datos, seleccionar y filtrar información, ordenar y transformar datos, gestionar valores faltantes y resumir resultados para obtener conocimientos más profundos.

Aprenda a crear visualizaciones atractivas con ggplot2. Construcción de gráficos de barras, histogramas, gráficos de densidad y gráficos de dispersión, con personalización y refinamiento mediante opciones de estilo y facetado para revelar conocimientos más profundos en los datos.

Fortalezca su comprensión de la estadística para el análisis de datos. Aplique medidas descriptivas, identifique y trate valores atípicos, y utilice técnicas de correlación con herramientas visuales como mapas de calor y diagramas de dispersión para descubrir relaciones significativas.

Resumen de Datos

Resumen rápido del conjunto de datos

Estadísticas resumidas para una sola columna

Base R

dplyr

Resumen de múltiples columnas por grupo

Base R

dplyr