Навчальна вибірка
Свайпніть щоб показати меню
У задачах з контрольованим або неконтрольованим навчанням навчальний набір зазвичай подається у табличному форматі.
Прикладом є набір даних diabetes, який використовується для прогнозування наявності діабету у людини. Він містить записи про 768 жінок із такими параметрами, як вік, індекс маси тіла та артеріальний тиск. Ці параметри називаються ознаками.
У наборі даних також є стовпець 'Outcome', який вказує, чи є у людини діабет. Це цільова змінна.
Кожен рядок у таблиці — це екземпляр (також називається точкою даних або зразком), що представляє інформацію про одну особу.
У таблиці (навчальному наборі) є цільовий стовпець, тобто вона містить мітки.
Завдання полягає у навчанні ML-моделі на цьому навчальному наборі, і після навчання вона може прогнозувати для інших людей (нових екземплярів), чи є у них діабет, використовуючи лише ознаки.
Цей навчальний набір є прикладом упередженого датасету, оскільки він містить виключно інформацію про жінок віком від 21 року. Тому модель може давати менш точні прогнози для чоловіків або для жінок молодше 21 року, оскільки вона не була навчена на цих групах.
Під час кодування стовпці ознак зазвичай призначаються змінній X, а цільові стовпці — як y.
Ознаки нових екземплярів позначаються як X_new.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат