Ознайомлення з Набором Даних
Почнемо попередню обробку з ознайомлення з набором даних. Протягом курсу ми будемо використовувати набір даних про пінгвінів. Завдання полягає у передбаченні виду пінгвіна.
Існує три можливі варіанти, які в машинному навчанні часто називають класами:
Ознаками є: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
та 'sex'
.
Дані містяться у файлі penguins.csv
. Ми завантажимо цей файл за посиланням за допомогою функції pd.read_csv()
та переглянемо його вміст:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Розглядаючи цей набір даних, можна вже виявити деякі проблеми, які необхідно вирішити. Це:
- Відсутні дані;
- Категоріальні змінні;
- Різні масштаби.
Відсутні дані
Більшість алгоритмів машинного навчання не можуть автоматично обробляти відсутні значення, тому необхідно видалити їх (або замінити на певні значення, що називається імпутацією) перед передачею навчального набору моделі.
pandas
заповнює порожні комірки таблиці значенням NaN
. Більшість моделей машинного навчання видадуть помилку, якщо у даних є хоча б одне значення NaN
.
Категоріальні дані
Дані містять категоріальні ознаки, які, як нам вже відомо, не можуть бути оброблені моделями машинного навчання.
Тому необхідно закодувати категоріальні дані у числовий формат.
Різні масштаби
Значення 'culmen_depth_mm'
знаходяться в діапазоні від 13.1 до 21.5, тоді як 'body_mass_g'
— від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g'
набагато важливішою, ніж 'culmen_depth_mm'
.
Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 3.13
Ознайомлення з Набором Даних
Свайпніть щоб показати меню
Почнемо попередню обробку з ознайомлення з набором даних. Протягом курсу ми будемо використовувати набір даних про пінгвінів. Завдання полягає у передбаченні виду пінгвіна.
Існує три можливі варіанти, які в машинному навчанні часто називають класами:
Ознаками є: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
та 'sex'
.
Дані містяться у файлі penguins.csv
. Ми завантажимо цей файл за посиланням за допомогою функції pd.read_csv()
та переглянемо його вміст:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Розглядаючи цей набір даних, можна вже виявити деякі проблеми, які необхідно вирішити. Це:
- Відсутні дані;
- Категоріальні змінні;
- Різні масштаби.
Відсутні дані
Більшість алгоритмів машинного навчання не можуть автоматично обробляти відсутні значення, тому необхідно видалити їх (або замінити на певні значення, що називається імпутацією) перед передачею навчального набору моделі.
pandas
заповнює порожні комірки таблиці значенням NaN
. Більшість моделей машинного навчання видадуть помилку, якщо у даних є хоча б одне значення NaN
.
Категоріальні дані
Дані містять категоріальні ознаки, які, як нам вже відомо, не можуть бути оброблені моделями машинного навчання.
Тому необхідно закодувати категоріальні дані у числовий формат.
Різні масштаби
Значення 'culmen_depth_mm'
знаходяться в діапазоні від 13.1 до 21.5, тоді як 'body_mass_g'
— від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g'
набагато важливішою, ніж 'culmen_depth_mm'
.
Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.
Дякуємо за ваш відгук!