Identifying Outliers and Errors
Свайпніть щоб показати меню
Після видалення дублікатів наступним важливим кроком є перевірка даних на наявність викидів та помилок.
Викиди — це значення, які суттєво відрізняються від решти даних. Вони не завжди свідчать про помилку, але дуже часто вказують на проблему, наприклад, неправильне введення даних або помилку під час імпорту.
Помилки, навпаки, — це значення, які явно не мають сенсу в контексті ваших даних. Наприклад, надто велике число, від’ємне значення там, де його не може бути, або підсумок, який не відповідає кількості.
Розглянемо простий приклад:
Product | Quantity | Total |
|---|---|---|
Phone | 2 | 800 |
Phone | 10 | 4000 |
Laptop | 1 | 9999 |
На перший погляд усе виглядає нормально, але якщо придивитися уважніше, деякі значення викликають питання.
Кількість 10 може бути коректною, але це залежить від контексту. Однак підсумкове значення 9999 явно виділяється серед інших і виглядає підозріло.
Якщо не перевіряти дані на викиди та помилки, це може суттєво спотворити аналіз. Наприклад, одне неправильне значення на кшталт 9999 може змістити середні значення або підсумки й призвести до хибних висновків.
Як визначити викиди
Сортування також дуже корисне. Якщо відсортувати стовпець за зростанням або спаданням, крайні значення з’являться на початку або в кінці, що полегшує їх перегляд.
Простий, але ефективний підхід — запитати себе: "Чи виглядає це значення реалістичним?"
Якщо більшість значень знаходяться в певному діапазоні, наприклад, 500 до 1000, а одне значення — 9999, це явний сигнал, що щось може бути не так і потребує перевірки.
Важливо розуміти, що не кожен викид є помилкою. Іноді це реальне значення, але його завжди слід перевіряти.
Перегляньте дані та визначте значення, які виглядають підозріло.
Визначте:
- Які значення виходять за межі очікуваного діапазону;
- Які значення можуть бути помилками.
По-перше, у стовпці Quantity значення 10 виглядає незвично, оскільки більшість інших значень — 1 або 2. Це не обов’язково є помилкою, але однозначно потребує перевірки.
По-друге, у стовпці Total значення 9999 явно виділяється із загального діапазону, оскільки більшість значень знаходяться приблизно між 500 та 4000. Це сильний кандидат на помилку.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат