Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Узагальнення Даних | Маніпулювання та Очищення Даних
Аналіз Даних у R

bookУзагальнення Даних

Підсумовування даних є важливим для швидкого ознайомлення зі структурою та закономірностями даних.

Швидкий огляд набору даних

Перед проведенням детального аналізу доцільно отримати загальний огляд набору даних. Це допомагає швидко зрозуміти діапазони, розподіли та наявність категоріальних значень. Для цього можна використати функцію summary().

summary(df)

Описова статистика для окремого стовпця

Можна обчислити базові описові статистики, такі як середнє, медіана та стандартне відхилення для окремих стовпців. Наприклад, ось як підсумувати стовпець selling_price.

Базовий R

У вашому розпорядженні є спеціалізовані функції, такі як mean(), median() та sd(). Аргумент na.rm = TRUE гарантує, що під час обчислення пропущені значення ігноруються.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Усі три статистики можна обчислити за один крок за допомогою функції summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Підсумовування кількох стовпців за групами

Часто виникає потреба порівнювати підсумкові статистики для різних груп у наборі даних. Наприклад, можна обчислити середню ціну продажу та середній пробіг для кожного типу пального.

Перед підсумовуванням переконайтеся, що стовпець mileage має числовий тип:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Базовий R

Функція aggregate() використовується для обчислення згрупованої статистики. Функція cbind() дозволяє підсумовувати декілька числових стовпців одночасно.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Групування та підсумовування також можна виконувати за допомогою group_by() та summarise(). Такий підхід зазвичай є більш читабельним і простішим для розширення.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Функція aggregate() у базовому R використовується для:

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 11

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 4

bookУзагальнення Даних

Свайпніть щоб показати меню

Підсумовування даних є важливим для швидкого ознайомлення зі структурою та закономірностями даних.

Швидкий огляд набору даних

Перед проведенням детального аналізу доцільно отримати загальний огляд набору даних. Це допомагає швидко зрозуміти діапазони, розподіли та наявність категоріальних значень. Для цього можна використати функцію summary().

summary(df)

Описова статистика для окремого стовпця

Можна обчислити базові описові статистики, такі як середнє, медіана та стандартне відхилення для окремих стовпців. Наприклад, ось як підсумувати стовпець selling_price.

Базовий R

У вашому розпорядженні є спеціалізовані функції, такі як mean(), median() та sd(). Аргумент na.rm = TRUE гарантує, що під час обчислення пропущені значення ігноруються.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Усі три статистики можна обчислити за один крок за допомогою функції summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Підсумовування кількох стовпців за групами

Часто виникає потреба порівнювати підсумкові статистики для різних груп у наборі даних. Наприклад, можна обчислити середню ціну продажу та середній пробіг для кожного типу пального.

Перед підсумовуванням переконайтеся, що стовпець mileage має числовий тип:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Базовий R

Функція aggregate() використовується для обчислення згрупованої статистики. Функція cbind() дозволяє підсумовувати декілька числових стовпців одночасно.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Групування та підсумовування також можна виконувати за допомогою group_by() та summarise(). Такий підхід зазвичай є більш читабельним і простішим для розширення.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
question mark

Функція aggregate() у базовому R використовується для:

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 11
some-alt