Свайпніть щоб показати меню

Пропущені значення часто зустрічаються в реальних наборах даних і повинні бути оброблені перед кластеризацією. Розглянемо три базові методи: імпутація середнім, імпутація медіаною та видалення рядків.

Заповнення середнім

Цей метод замінює пропущені значення у стовпці на середнє серед непорожніх значень. Метод простий і зберігає середнє значення стовпця.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Однак цей підхід може зменшити дисперсію та не підходить для асиметричних даних або категоріальних ознак.

Заповнення медіаною

Цей метод замінює пропущені значення на медіану серед непорожніх значень у стовпці. Медіана менш чутлива до викидів, ніж середнє, тому підходить для асиметричних даних або даних з викидами.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Видалення рядків із пропущеними значеннями

Цей метод видаляє всі рядки, що містять пропущені значення. Це просто і не вводить штучних даних. Однак це може призвести до значної втрати даних та упередженості, якщо буде видалено багато рядків або пропуски не є випадковими.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Вибір найкращого методу залежить від ваших даних та цілей аналізу. Файл із кодом містить практичні приклади кожної техніки більш детально.

Файл із кодом нижче містить практичні приклади кожної техніки попередньої обробки, розглянутої в цьому розділі, включаючи обробку пропущених значень:

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 1

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Обробка Пропущених Значень