Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Resumir dados** é fundamental para obter uma compreensão rápida de sua estrutura e padrões.

## Resumo rápido do conjunto de dados
Antes de realizar uma análise detalhada, é útil gerar uma visão geral rápida do conjunto de dados. Isso ajuda a entender os intervalos, distribuições e a presença de valores categóricos de forma imediata. É possível utilizar a função `summary()` para isso.
```
summary(df)
```

## Estatísticas resumidas para uma única coluna
É possível calcular estatísticas descritivas básicas como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna `selling_price`.

### Base R
Funções dedicadas como `mean()`, `median()` e `sd()` disponíveis para uso. O argumento `na.rm = TRUE` garante que valores ausentes sejam ignorados durante o cálculo.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Cálculo das três estatísticas em uma única etapa com a função `summarise()`.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Resumindo Múltiplas Colunas por Grupo

Frequentemente, é necessário comparar estatísticas resumidas entre diferentes grupos do conjunto de dados. Por exemplo, calcular o preço médio de venda e a quilometragem média para cada tipo de combustível.

Antes de resumir, certifique-se de que a coluna `mileage` está no formato numérico:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
A função `aggregate()` pode ser utilizada para calcular estatísticas agrupadas. A função `cbind()` permite resumir várias colunas numéricas de uma vez.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Agrupamento e sumarização também podem ser realizados usando `group_by()` e `summarise()`. Essa abordagem geralmente é mais legível e fácil de expandir.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Baixar Conjunto de Dados

Baixar código do capítulo

A função `aggregate()` é usada no R base para:


Adquira experiência prática em análise de dados com R aprendendo a limpar, transformar e visualizar conjuntos de dados. Explore fluxos de trabalho essenciais, como seleção e filtragem de dados, tratamento de valores ausentes e sumarização de resultados. Desenvolva confiança na preparação de dados para obtenção de insights, elaboração de relatórios e exploração estatística aprofundada.

Explore os fundamentos da análise de dados com R. Aprenda a instalar as ferramentas, carregar e inspecionar conjuntos de dados, selecionar e filtrar informações, ordenar e transformar dados, lidar com valores ausentes e resumir resultados para obter insights mais profundos.

Aprenda a criar visualizações atraentes com ggplot2. Construa gráficos de barras, histogramas, gráficos de densidade e gráficos de dispersão, depois personalize e refine-os com opções de estilo e facetas para revelar insights mais profundos em seus dados.

Aprimore sua compreensão de estatística para análise de dados. Aplique medidas descritivas, identifique e trate outliers, e utilize técnicas de correlação com ferramentas visuais como mapas de calor e gráficos de dispersão para revelar relações significativas.

Resumindo Dados

Resumo rápido do conjunto de dados

Estatísticas resumidas para uma única coluna

Base R

dplyr

Resumindo Múltiplas Colunas por Grupo

Base R

dplyr