Видалення Викидів за Допомогою Методу Z-Оцінки
Одним із поширених методів виявлення та видалення викидів є метод z-оцінки. Цей підхід визначає, наскільки далеко точка даних знаходиться від середнього значення у стандартних відхиленнях. Якщо точка даних виходить за певний поріг (зазвичай ±3), її вважають викидом.
Що таке z-оцінка?
Z-оцінка (також відома як стандартна оцінка) обчислюється за формулою:
Z=σX−μДе:
- X: вихідна точка даних;
- μ: середнє значення набору даних;
- σ: стандартне відхилення набору даних.
Обчислення z-оцінок
Ви можете обчислити z-оцінки вручну за формулою:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Або скористатися вбудованою функцією:
df$cgpa_zscore <- scale(df$cgpa)
Виявлення викидів
Після обчислення z-оцінок можна вибрати порогове значення (±3 у цьому випадку) та застосувати просту операцію фільтрації для вибору всіх записів, що виходять за межі діапазону:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Або можна вибрати всі записи всередині діапазону, щоб створити набір даних без викидів:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 4
Видалення Викидів за Допомогою Методу Z-Оцінки
Свайпніть щоб показати меню
Одним із поширених методів виявлення та видалення викидів є метод z-оцінки. Цей підхід визначає, наскільки далеко точка даних знаходиться від середнього значення у стандартних відхиленнях. Якщо точка даних виходить за певний поріг (зазвичай ±3), її вважають викидом.
Що таке z-оцінка?
Z-оцінка (також відома як стандартна оцінка) обчислюється за формулою:
Z=σX−μДе:
- X: вихідна точка даних;
- μ: середнє значення набору даних;
- σ: стандартне відхилення набору даних.
Обчислення z-оцінок
Ви можете обчислити z-оцінки вручну за формулою:
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
Або скористатися вбудованою функцією:
df$cgpa_zscore <- scale(df$cgpa)
Виявлення викидів
Після обчислення z-оцінок можна вибрати порогове значення (±3 у цьому випадку) та застосувати просту операцію фільтрації для вибору всіх записів, що виходять за межі діапазону:
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
Або можна вибрати всі записи всередині діапазону, щоб створити набір даних без викидів:
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
Дякуємо за ваш відгук!