Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Identifying Outliers and Errors | Видалення Дублікатів і Помилок
Очищення даних в Excel

bookIdentifying Outliers and Errors

Свайпніть щоб показати меню

Після видалення дублікатів наступним важливим кроком є перевірка даних на наявність викидів та помилок.

Викиди — це значення, які суттєво відрізняються від решти даних. Вони не завжди свідчать про помилку, але дуже часто вказують на проблему, наприклад, неправильне введення даних або помилку під час імпорту.

Помилки, навпаки, — це значення, які явно не мають сенсу в контексті ваших даних. Наприклад, надто велике число, від’ємне значення там, де його не може бути, або підсумок, який не відповідає кількості.

Розглянемо простий приклад:

Product

Quantity

Total

Phone

2

800

Phone

10

4000

Laptop

1

9999

На перший погляд усе виглядає нормально, але якщо придивитися уважніше, деякі значення викликають питання.

Кількість 10 може бути коректною, але це залежить від контексту. Однак підсумкове значення 9999 явно виділяється серед інших і виглядає підозріло.

Якщо не перевіряти дані на викиди та помилки, це може суттєво спотворити аналіз. Наприклад, одне неправильне значення на кшталт 9999 може змістити середні значення або підсумки й призвести до хибних висновків.

Як визначити викиди

Сортування також дуже корисне. Якщо відсортувати стовпець за зростанням або спаданням, крайні значення з’являться на початку або в кінці, що полегшує їх перегляд.

Простий, але ефективний підхід — запитати себе: "Чи виглядає це значення реалістичним?"

Якщо більшість значень знаходяться в певному діапазоні, наприклад, 500 до 1000, а одне значення — 9999, це явний сигнал, що щось може бути не так і потребує перевірки.

Важливо розуміти, що не кожен викид є помилкою. Іноді це реальне значення, але його завжди слід перевіряти.

Перегляньте дані та визначте значення, які виглядають підозріло.

Визначте:

  • Які значення виходять за межі очікуваного діапазону;
  • Які значення можуть бути помилками.

По-перше, у стовпці Quantity значення 10 виглядає незвично, оскільки більшість інших значень — 1 або 2. Це не обов’язково є помилкою, але однозначно потребує перевірки.

По-друге, у стовпці Total значення 9999 явно виділяється із загального діапазону, оскільки більшість значень знаходяться приблизно між 500 та 4000. Це сильний кандидат на помилку.

question mark

Що таке викидай у наборі даних?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 4. Розділ 2
some-alt