Переобучення та Регуляризація
Як показано в попередньому розділі, за допомогою PolynomialFeatures можна створити складну межу прийняття рішень. Поліноміальні ознаки другого ступеня можуть навіть створити межі, зображені на малюнку нижче:
І це лише другий ступінь. Вищий ступінь може призвести до ще складніших форм. Але це має і недолік. Межа прийняття рішень, побудована за допомогою логістичної регресії, може стати надто складною, що призводить до перенавчання моделі.
Перенавчання — це коли модель, замість того щоб вивчати загальні закономірності у даних, створює дуже складну межу прийняття рішень для обробки кожного навчального прикладу. Проте вона не працює так само добре на нових даних, хоча саме робота з невідомими даними є основним завданням моделі машинного навчання.
Регуляризація вирішує проблему перенавчання. Насправді, l2-регуляризація використовується у класі LogisticRegression за замовчуванням. Але необхідно налаштувати, наскільки сильно модель повинна бути регуляризована. Це контролюється параметром C:



- більше значення
C— слабша регуляризація, більше перенавчання; - менше значення
C— сильніша регуляризація, менше перенавчання (але можливе недонавчання).
Які значення C забезпечать якісну модель, залежить від набору даних, тому краще підбирати їх за допомогою GridSearchCV.
Під час використання логістичної регресії з регуляризацією важливо масштабувати дані. Регуляризація штрафує великі коефіцієнти, і без масштабування ознаки з більшими значеннями можуть спотворювати результати. Насправді, масштабування майже завжди необхідне — навіть якщо регуляризація не використовується.
Клас LogisticRegression за замовчуванням містить регуляризацію, тому слід або вимкнути регуляризацію (встановивши penalty=None), або масштабувати дані (наприклад, використовуючи StandardScaler).
Якщо ви використовуєте одночасно PolynomialFeatures та StandardScaler, переконайтеся, що застосовуєте StandardScaler після створення поліноміальних ознак. Масштабування даних до поліноміального розширення може спотворити отримані ознаки, оскільки операції, такі як піднесення до квадрату або множення вже стандартизованих значень, можуть призвести до неприродних розподілів.
1. Оберіть НЕПРАВИЛЬНЕ твердження.
2. Який правильний порядок попередньої обробки даних
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Чудово!
Completion показник покращився до 3.33
Переобучення та Регуляризація
Свайпніть щоб показати меню
Як показано в попередньому розділі, за допомогою PolynomialFeatures можна створити складну межу прийняття рішень. Поліноміальні ознаки другого ступеня можуть навіть створити межі, зображені на малюнку нижче:
І це лише другий ступінь. Вищий ступінь може призвести до ще складніших форм. Але це має і недолік. Межа прийняття рішень, побудована за допомогою логістичної регресії, може стати надто складною, що призводить до перенавчання моделі.
Перенавчання — це коли модель, замість того щоб вивчати загальні закономірності у даних, створює дуже складну межу прийняття рішень для обробки кожного навчального прикладу. Проте вона не працює так само добре на нових даних, хоча саме робота з невідомими даними є основним завданням моделі машинного навчання.
Регуляризація вирішує проблему перенавчання. Насправді, l2-регуляризація використовується у класі LogisticRegression за замовчуванням. Але необхідно налаштувати, наскільки сильно модель повинна бути регуляризована. Це контролюється параметром C:



- більше значення
C— слабша регуляризація, більше перенавчання; - менше значення
C— сильніша регуляризація, менше перенавчання (але можливе недонавчання).
Які значення C забезпечать якісну модель, залежить від набору даних, тому краще підбирати їх за допомогою GridSearchCV.
Під час використання логістичної регресії з регуляризацією важливо масштабувати дані. Регуляризація штрафує великі коефіцієнти, і без масштабування ознаки з більшими значеннями можуть спотворювати результати. Насправді, масштабування майже завжди необхідне — навіть якщо регуляризація не використовується.
Клас LogisticRegression за замовчуванням містить регуляризацію, тому слід або вимкнути регуляризацію (встановивши penalty=None), або масштабувати дані (наприклад, використовуючи StandardScaler).
Якщо ви використовуєте одночасно PolynomialFeatures та StandardScaler, переконайтеся, що застосовуєте StandardScaler після створення поліноміальних ознак. Масштабування даних до поліноміального розширення може спотворити отримані ознаки, оскільки операції, такі як піднесення до квадрату або множення вже стандартизованих значень, можуть призвести до неприродних розподілів.
1. Оберіть НЕПРАВИЛЬНЕ твердження.
2. Який правильний порядок попередньої обробки даних
Дякуємо за ваш відгук!