Підсумовування Даних
Підсумовування даних є важливим для швидкого розуміння їхньої структури та закономірностей.
Швидкий огляд набору даних
Перед проведенням детального аналізу корисно отримати загальний огляд набору даних. Це допомагає швидко оцінити діапазони, розподіли та наявність категоріальних значень. Для цього можна використати функцію summary()
.
summary(df)
Описова статистика для окремого стовпця
Можна обчислити базові описові статистики, такі як середнє, медіана та стандартне відхилення для окремих стовпців. Наприклад, ось як підсумувати стовпець selling_price
.
Базовий R
У вашому розпорядженні є спеціалізовані функції, такі як mean()
, median()
та sd()
. Аргумент na.rm = TRUE
гарантує, що під час обчислення пропущені значення ігноруються.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Усі три статистики можна обчислити за один крок за допомогою функції summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Підсумовування кількох стовпців за групами
Часто виникає потреба порівнювати підсумкові статистики для різних груп у наборі даних. Наприклад, можна обчислити середню ціну продажу та середній пробіг для кожного типу пального.
Перед підсумовуванням переконайтеся, що стовпець mileage
має числовий тип:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Базовий R
Функція aggregate()
використовується для обчислення статистики за групами. Функція cbind()
дозволяє підсумовувати кілька числових стовпців одночасно.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Групування та підсумовування також можна виконати за допомогою group_by()
та summarise()
. Такий підхід зазвичай є більш читабельним і простішим для розширення.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
What does the summary() function output look like?
How do I handle non-numeric columns when summarizing data?
Can you explain how to interpret the mean, median, and standard deviation results?
Awesome!
Completion rate improved to 4
Підсумовування Даних
Свайпніть щоб показати меню
Підсумовування даних є важливим для швидкого розуміння їхньої структури та закономірностей.
Швидкий огляд набору даних
Перед проведенням детального аналізу корисно отримати загальний огляд набору даних. Це допомагає швидко оцінити діапазони, розподіли та наявність категоріальних значень. Для цього можна використати функцію summary()
.
summary(df)
Описова статистика для окремого стовпця
Можна обчислити базові описові статистики, такі як середнє, медіана та стандартне відхилення для окремих стовпців. Наприклад, ось як підсумувати стовпець selling_price
.
Базовий R
У вашому розпорядженні є спеціалізовані функції, такі як mean()
, median()
та sd()
. Аргумент na.rm = TRUE
гарантує, що під час обчислення пропущені значення ігноруються.
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
dplyr
Усі три статистики можна обчислити за один крок за допомогою функції summarise()
.
df %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
median_price = median(selling_price, na.rm = TRUE),
sd_price = sd(selling_price, na.rm = TRUE)
)
Підсумовування кількох стовпців за групами
Часто виникає потреба порівнювати підсумкові статистики для різних груп у наборі даних. Наприклад, можна обчислити середню ціну продажу та середній пробіг для кожного типу пального.
Перед підсумовуванням переконайтеся, що стовпець mileage
має числовий тип:
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
Базовий R
Функція aggregate()
використовується для обчислення статистики за групами. Функція cbind()
дозволяє підсумовувати кілька числових стовпців одночасно.
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
dplyr
Групування та підсумовування також можна виконати за допомогою group_by()
та summarise()
. Такий підхід зазвичай є більш читабельним і простішим для розширення.
df %>%
group_by(fuel) %>%
summarise(
mean_price = mean(selling_price, na.rm = TRUE),
mean_mileage = mean(mileage, na.rm = TRUE)
)
Дякуємо за ваш відгук!