Ознайомлення з набором даних
Свайпніть щоб показати меню
Початок попередньої обробки даних із дослідження набору даних. Протягом цього курсу буде використовуватися набір даних penguin, із завданням передбачення виду пінгвіна.
Існує три можливі варіанти, які часто називають класами у машинному навчанні:
Ознаки: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' та 'sex'.
Набір даних зберігається у файлі penguins.csv. Його можна завантажити за посиланням за допомогою функції pd.read_csv(), щоб переглянути вміст:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
У цьому наборі даних присутні кілька проблем, які необхідно вирішити:
- Відсутні дані;
- Категоріальні змінні;
- Різні масштаби ознак.
Відсутні дані
Більшість алгоритмів машинного навчання не можуть обробляти відсутні значення безпосередньо, тому їх потрібно усунути перед навчанням. Відсутні значення можна або видалити, або імпутувати (замінити на підставні значення).
У pandas порожні комірки позначаються як NaN. Багато моделей машинного навчання видадуть помилку, якщо у наборі даних є хоча б одне значення NaN.
Категоріальні дані
У наборі даних містяться категоріальні змінні, які моделі машинного навчання не можуть обробляти безпосередньо.
Категоріальні дані необхідно кодувати у числову форму.
Різні масштаби
Значення 'culmen_depth_mm' знаходяться в діапазоні від 13.1 до 21.5, тоді як значення 'body_mass_g' — від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g' набагато важливішою, ніж 'culmen_depth_mm'.
Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат