Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Виявлення Викидів Та Помилок | Очищення та підготовка даних в Excel
Очищення та підготовка даних в Excel

Виявлення Викидів Та Помилок

Свайпніть щоб показати меню

Після видалення дублікатів наступним важливим кроком є перевірка даних на наявність викидів та помилок.

Викиди — це значення, які суттєво відрізняються від решти даних. Вони не завжди свідчать про помилку, але дуже часто вказують на проблему, наприклад, неправильне введення даних або помилку під час імпорту.

Помилки, навпаки, — це значення, які явно не мають сенсу в контексті ваших даних. Наприклад, надто велике число, від’ємне значення там, де його не може бути, або підсумок, який не відповідає кількості.

Розглянемо простий приклад:

На перший погляд усе виглядає нормально, але якщо придивитися уважніше, деякі значення викликають питання.

Кількість 10 може бути коректною, але це залежить від контексту. Проте підсумкова сума 9999 явно виділяється серед інших і виглядає підозріло.

Якщо не перевіряти дані на викиди та помилки, це може суттєво спотворити аналіз. Наприклад, одне неправильне значення на кшталт 9999 може вплинути на середні значення чи підсумки та призвести до хибних висновків.

Як виявити викиди

Сортування також є дуже корисним. Якщо відсортувати стовпець за зростанням або спаданням, крайні значення з’являться на початку або в кінці, що полегшує їх перегляд.

Простий, але ефективний підхід — запитати себе: "Чи виглядає це значення реалістичним?"

Якщо більшість значень знаходяться в певному діапазоні, наприклад, 500 до 1000, а одне значення — 9999, це явний сигнал, що щось може бути не так і потребує перевірки.

Важливо розуміти, що не кожен викид є помилкою. Іноді це реальне значення, але його завжди слід перевіряти.

Завдання

Переглянути дані та визначити підозрілі значення.

Визначити:

  • Які значення виходять за межі очікуваного діапазону;
  • Які значення можуть бути помилками.

По-перше, у стовпці Quantity значення 10 виглядає незвично, оскільки більшість інших значень — 1 або 2. Це не обов’язково є помилкою, але однозначно потребує перевірки.

По-друге, у стовпці Total значення 9999 явно виділяється серед загального діапазону, оскільки більшість значень знаходяться приблизно між 500 та 4000. Це є вагомим кандидатом на помилку.

question mark

Що таке викид у наборі даних?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 15

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 15
some-alt