Resumindo Dados
Resumir dados é fundamental para obter uma compreensão rápida de sua estrutura e padrões.
Resumo rápido do conjunto de dados
Antes de realizar uma análise detalhada, é útil gerar uma visão geral rápida do conjunto de dados. Isso ajuda a entender os intervalos, distribuições e a presença de valores categóricos de forma imediata. Você pode usar a função summary()
para isso.
summary(df)
Estatísticas resumidas para uma única coluna
É possível calcular estatísticas descritivas básicas, como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna selling_price
.
Base R
Funções dedicadas como mean()
, median()
e sd()
estão disponíveis. O argumento na.rm = TRUE
garante que valores ausentes sejam ignorados durante o cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
É possível calcular todas as três estatísticas em uma única etapa com a função summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumindo Múltiplas Colunas por Grupo
Frequentemente, é necessário comparar estatísticas resumidas entre diferentes grupos do conjunto de dados. Por exemplo, calcular o preço médio de venda e a quilometragem média para cada tipo de combustível.
Antes de resumir, certifique-se de que a coluna mileage
seja numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
A função aggregate()
pode ser utilizada para calcular estatísticas agrupadas. A função cbind()
permite resumir várias colunas numéricas ao mesmo tempo.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
O agrupamento e a sumarização também podem ser realizados utilizando group_by()
e summarise()
. Essa abordagem geralmente é mais legível e fácil de expandir.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4
Resumindo Dados
Deslize para mostrar o menu
Resumir dados é fundamental para obter uma compreensão rápida de sua estrutura e padrões.
Resumo rápido do conjunto de dados
Antes de realizar uma análise detalhada, é útil gerar uma visão geral rápida do conjunto de dados. Isso ajuda a entender os intervalos, distribuições e a presença de valores categóricos de forma imediata. Você pode usar a função summary()
para isso.
summary(df)
Estatísticas resumidas para uma única coluna
É possível calcular estatísticas descritivas básicas, como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna selling_price
.
Base R
Funções dedicadas como mean()
, median()
e sd()
estão disponíveis. O argumento na.rm = TRUE
garante que valores ausentes sejam ignorados durante o cálculo.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
É possível calcular todas as três estatísticas em uma única etapa com a função summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Resumindo Múltiplas Colunas por Grupo
Frequentemente, é necessário comparar estatísticas resumidas entre diferentes grupos do conjunto de dados. Por exemplo, calcular o preço médio de venda e a quilometragem média para cada tipo de combustível.
Antes de resumir, certifique-se de que a coluna mileage
seja numérica:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Base R
A função aggregate()
pode ser utilizada para calcular estatísticas agrupadas. A função cbind()
permite resumir várias colunas numéricas ao mesmo tempo.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
O agrupamento e a sumarização também podem ser realizados utilizando group_by()
e summarise()
. Essa abordagem geralmente é mais legível e fácil de expandir.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Obrigado pelo seu feedback!