Типи Даних
Свайпніть щоб показати меню
Кожен стовпець (ознака) у навчальному наборі має пов'язаний із ним тип даних. Ці типи даних можна згрупувати у числові, категоріальні та дату й(або) час.
Більшість алгоритмів машинного навчання працюють ефективно лише з числовими даними, тому категоріальні та часові значення потрібно перетворювати на числа.
Для дати й часу можна виділяти ознаки на кшталт 'year', 'month' та подібні, залежно від завдання. Вони вже є числовими значеннями, тому їх можна використовувати безпосередньо.
З категоріальними даними працювати дещо складніше.
Типи категоріальних даних
Категоріальні дані поділяються на два типи:
-
Порядкові дані — це тип категоріальних даних, у яких категорії мають природний порядок. Наприклад, рівень освіти (від початкової школи до Ph.D.) або оцінки (від дуже погано до дуже добре) тощо;
-
Номінативні дані — це тип категоріальних даних, які не мають природного порядку. Наприклад, ім'я, стать, країна походження тощо.
Перетворення порядкових і номінативних типів даних у числові значення вимагає різних підходів, тому їх слід обробляти окремо.
Існують кращі способи перетворення дат у числові значення, які виходять за межі цього вступного курсу. Наприклад, якщо використовувати лише ознаку 'month', це не враховує, що 12-й місяць насправді ближчий до 1-го, ніж до 9-го.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат