Обробка Пропущених Значень
Відсутні значення часто зустрічаються у реальних наборах даних і повинні бути оброблені до кластеризації. Розглянемо три базові методи: заповнення середнім, заповнення медіаною та видалення рядків.
Заповнення середнім
Цей метод замінює відсутні значення у стовпці на середнє серед невідсутніх значень. Метод простий і зберігає середнє значення стовпця.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Однак цей підхід може зменшити дисперсію та не підходить для асиметричних даних або категоріальних ознак.
Заповнення медіаною
Цей метод замінює відсутні значення на медіану серед невідсутніх значень у стовпці. Медіана менш чутлива до викидів, ніж середнє, тому підходить для асиметричних даних або даних із викидами.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Видалення рядків із пропущеними значеннями
Цей метод видаляє всі рядки, що містять пропущені значення. Він простий і не вводить штучних даних. Однак це може призвести до значної втрати даних та упередженості, якщо буде видалено багато рядків або пропуски не є випадковими.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Вибір найкращого методу залежить від ваших даних та цілей аналізу. Файл з кодом містить практичні приклади кожної техніки більш детально.
Наведений нижче файл коду містить практичні приклади кожної техніки попередньої обробки, розглянутої в цьому розділі, включаючи обробку пропущених значень:
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.94
Обробка Пропущених Значень
Свайпніть щоб показати меню
Відсутні значення часто зустрічаються у реальних наборах даних і повинні бути оброблені до кластеризації. Розглянемо три базові методи: заповнення середнім, заповнення медіаною та видалення рядків.
Заповнення середнім
Цей метод замінює відсутні значення у стовпці на середнє серед невідсутніх значень. Метод простий і зберігає середнє значення стовпця.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Однак цей підхід може зменшити дисперсію та не підходить для асиметричних даних або категоріальних ознак.
Заповнення медіаною
Цей метод замінює відсутні значення на медіану серед невідсутніх значень у стовпці. Медіана менш чутлива до викидів, ніж середнє, тому підходить для асиметричних даних або даних із викидами.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Видалення рядків із пропущеними значеннями
Цей метод видаляє всі рядки, що містять пропущені значення. Він простий і не вводить штучних даних. Однак це може призвести до значної втрати даних та упередженості, якщо буде видалено багато рядків або пропуски не є випадковими.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Вибір найкращого методу залежить від ваших даних та цілей аналізу. Файл з кодом містить практичні приклади кожної техніки більш детально.
Наведений нижче файл коду містить практичні приклади кожної техніки попередньої обробки, розглянутої в цьому розділі, включаючи обробку пропущених значень:
Дякуємо за ваш відгук!