Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ознайомлення з Набором Даних | Попередня Обробка Даних Із Scikit-learn
Вступ до ML з Використанням Scikit-learn

bookОзнайомлення з Набором Даних

Почнемо попередню обробку з ознайомлення з набором даних. Протягом курсу ми будемо використовувати набір даних про пінгвінів. Завдання полягає у передбаченні виду пінгвіна.

Існує три можливі варіанти, які в машинному навчанні часто називають класами:

Ознаками є: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' та 'sex'.

Дані містяться у файлі penguins.csv. Ми завантажимо цей файл за посиланням за допомогою функції pd.read_csv() та переглянемо його вміст:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Розглядаючи цей набір даних, можна вже виявити деякі проблеми, які необхідно вирішити. Це:

  • Відсутні дані;
  • Категоріальні змінні;
  • Різні масштаби.

Відсутні дані

Більшість алгоритмів машинного навчання не можуть автоматично обробляти відсутні значення, тому необхідно видалити їх (або замінити на певні значення, що називається імпутацією) перед передачею навчального набору моделі.

pandas заповнює порожні комірки таблиці значенням NaN. Більшість моделей машинного навчання видадуть помилку, якщо у даних є хоча б одне значення NaN.

Категоріальні дані

Дані містять категоріальні ознаки, які, як нам вже відомо, не можуть бути оброблені моделями машинного навчання.

Тому необхідно закодувати категоріальні дані у числовий формат.

Різні масштаби

Значення 'culmen_depth_mm' знаходяться в діапазоні від 13.1 до 21.5, тоді як 'body_mass_g' — від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g' набагато важливішою, ніж 'culmen_depth_mm'.

Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.

question-icon

Відповідність проблеми та способу її вирішення.

Missing values –
Categorical data –

Different Scales –

Натисніть або перетягніть елементи та заповніть пропуски

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 3.13

bookОзнайомлення з Набором Даних

Свайпніть щоб показати меню

Почнемо попередню обробку з ознайомлення з набором даних. Протягом курсу ми будемо використовувати набір даних про пінгвінів. Завдання полягає у передбаченні виду пінгвіна.

Існує три можливі варіанти, які в машинному навчанні часто називають класами:

Ознаками є: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' та 'sex'.

Дані містяться у файлі penguins.csv. Ми завантажимо цей файл за посиланням за допомогою функції pd.read_csv() та переглянемо його вміст:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Розглядаючи цей набір даних, можна вже виявити деякі проблеми, які необхідно вирішити. Це:

  • Відсутні дані;
  • Категоріальні змінні;
  • Різні масштаби.

Відсутні дані

Більшість алгоритмів машинного навчання не можуть автоматично обробляти відсутні значення, тому необхідно видалити їх (або замінити на певні значення, що називається імпутацією) перед передачею навчального набору моделі.

pandas заповнює порожні комірки таблиці значенням NaN. Більшість моделей машинного навчання видадуть помилку, якщо у даних є хоча б одне значення NaN.

Категоріальні дані

Дані містять категоріальні ознаки, які, як нам вже відомо, не можуть бути оброблені моделями машинного навчання.

Тому необхідно закодувати категоріальні дані у числовий формат.

Різні масштаби

Значення 'culmen_depth_mm' знаходяться в діапазоні від 13.1 до 21.5, тоді як 'body_mass_g' — від 2700 до 6300. Через це деякі моделі машинного навчання можуть вважати ознаку 'body_mass_g' набагато важливішою, ніж 'culmen_depth_mm'.

Масштабування вирішує цю проблему. Це буде розглянуто в наступних розділах.

question-icon

Відповідність проблеми та способу її вирішення.

Missing values –
Categorical data –

Different Scales –

Натисніть або перетягніть елементи та заповніть пропуски

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 2
some-alt