Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Resumindo Dados | Manipulação e Limpeza de Dados
Análise de Dados com R

bookResumindo Dados

Resumir dados é fundamental para obter uma compreensão rápida de sua estrutura e padrões.

Resumo rápido do conjunto de dados

Antes de realizar uma análise detalhada, é útil gerar uma visão geral rápida do conjunto de dados. Isso ajuda a entender os intervalos, distribuições e a presença de valores categóricos de forma imediata. Você pode usar a função summary() para isso.

summary(df)

Estatísticas resumidas para uma única coluna

É possível calcular estatísticas descritivas básicas, como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna selling_price.

Base R

Funções dedicadas como mean(), median() e sd() estão disponíveis. O argumento na.rm = TRUE garante que valores ausentes sejam ignorados durante o cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

É possível calcular todas as três estatísticas em uma única etapa com a função summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumindo Múltiplas Colunas por Grupo

Frequentemente, é necessário comparar estatísticas resumidas entre diferentes grupos do conjunto de dados. Por exemplo, calcular o preço médio de venda e a quilometragem média para cada tipo de combustível.

Antes de resumir, certifique-se de que a coluna mileage seja numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

A função aggregate() pode ser utilizada para calcular estatísticas agrupadas. A função cbind() permite resumir várias colunas numéricas ao mesmo tempo.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

O agrupamento e a sumarização também podem ser realizados utilizando group_by() e summarise(). Essa abordagem geralmente é mais legível e fácil de expandir.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

A função aggregate() é utilizada no base R para:

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 11

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4

bookResumindo Dados

Deslize para mostrar o menu

Resumir dados é fundamental para obter uma compreensão rápida de sua estrutura e padrões.

Resumo rápido do conjunto de dados

Antes de realizar uma análise detalhada, é útil gerar uma visão geral rápida do conjunto de dados. Isso ajuda a entender os intervalos, distribuições e a presença de valores categóricos de forma imediata. Você pode usar a função summary() para isso.

summary(df)

Estatísticas resumidas para uma única coluna

É possível calcular estatísticas descritivas básicas, como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna selling_price.

Base R

Funções dedicadas como mean(), median() e sd() estão disponíveis. O argumento na.rm = TRUE garante que valores ausentes sejam ignorados durante o cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

É possível calcular todas as três estatísticas em uma única etapa com a função summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumindo Múltiplas Colunas por Grupo

Frequentemente, é necessário comparar estatísticas resumidas entre diferentes grupos do conjunto de dados. Por exemplo, calcular o preço médio de venda e a quilometragem média para cada tipo de combustível.

Antes de resumir, certifique-se de que a coluna mileage seja numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

A função aggregate() pode ser utilizada para calcular estatísticas agrupadas. A função cbind() permite resumir várias colunas numéricas ao mesmo tempo.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

O agrupamento e a sumarização também podem ser realizados utilizando group_by() e summarise(). Essa abordagem geralmente é mais legível e fácil de expandir.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

A função aggregate() é utilizada no base R para:

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 11
some-alt