Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Переобучення та Регуляризація | Секція
Основи Контрольованого Навчання

bookПереобучення та Регуляризація

Як показано в попередньому розділі, за допомогою PolynomialFeatures можна створити складну межу прийняття рішень. Поліноміальні ознаки другого ступеня можуть навіть створити межі, зображені на малюнку нижче:

І це лише другий ступінь. Вищий ступінь може призвести до ще складніших форм. Але це має і недолік. Межа прийняття рішень, побудована за допомогою логістичної регресії, може стати надто складною, що призводить до перенавчання моделі.

Перенавчання — це коли модель, замість того щоб вивчати загальні закономірності у даних, створює дуже складну межу прийняття рішень для обробки кожного навчального прикладу. Проте вона не працює так само добре на нових даних, хоча саме робота з невідомими даними є основним завданням моделі машинного навчання.

Регуляризація вирішує проблему перенавчання. Насправді, l2-регуляризація використовується у класі LogisticRegression за замовчуванням. Але необхідно налаштувати, наскільки сильно модель повинна бути регуляризована. Це контролюється параметром C:

carousel-imgcarousel-imgcarousel-img
  • більше значення C — слабша регуляризація, більше перенавчання;
  • менше значення C — сильніша регуляризація, менше перенавчання (але можливе недонавчання).

Які значення C забезпечать якісну модель, залежить від набору даних, тому краще підбирати їх за допомогою GridSearchCV.

Note
Примітка

Під час використання логістичної регресії з регуляризацією важливо масштабувати дані. Регуляризація штрафує великі коефіцієнти, і без масштабування ознаки з більшими значеннями можуть спотворювати результати. Насправді, масштабування майже завжди необхідне — навіть якщо регуляризація не використовується.

Клас LogisticRegression за замовчуванням містить регуляризацію, тому слід або вимкнути регуляризацію (встановивши penalty=None), або масштабувати дані (наприклад, використовуючи StandardScaler).

Note
Примітка

Якщо ви використовуєте одночасно PolynomialFeatures та StandardScaler, переконайтеся, що застосовуєте StandardScaler після створення поліноміальних ознак. Масштабування даних до поліноміального розширення може спотворити отримані ознаки, оскільки операції, такі як піднесення до квадрату або множення вже стандартизованих значень, можуть призвести до неприродних розподілів.

1. Оберіть НЕПРАВИЛЬНЕ твердження.

2. Який правильний порядок попередньої обробки даних

question mark

Оберіть НЕПРАВИЛЬНЕ твердження.

Select the correct answer

question mark

Який правильний порядок попередньої обробки даних

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 25

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

bookПереобучення та Регуляризація

Свайпніть щоб показати меню

Як показано в попередньому розділі, за допомогою PolynomialFeatures можна створити складну межу прийняття рішень. Поліноміальні ознаки другого ступеня можуть навіть створити межі, зображені на малюнку нижче:

І це лише другий ступінь. Вищий ступінь може призвести до ще складніших форм. Але це має і недолік. Межа прийняття рішень, побудована за допомогою логістичної регресії, може стати надто складною, що призводить до перенавчання моделі.

Перенавчання — це коли модель, замість того щоб вивчати загальні закономірності у даних, створює дуже складну межу прийняття рішень для обробки кожного навчального прикладу. Проте вона не працює так само добре на нових даних, хоча саме робота з невідомими даними є основним завданням моделі машинного навчання.

Регуляризація вирішує проблему перенавчання. Насправді, l2-регуляризація використовується у класі LogisticRegression за замовчуванням. Але необхідно налаштувати, наскільки сильно модель повинна бути регуляризована. Це контролюється параметром C:

carousel-imgcarousel-imgcarousel-img
  • більше значення C — слабша регуляризація, більше перенавчання;
  • менше значення C — сильніша регуляризація, менше перенавчання (але можливе недонавчання).

Які значення C забезпечать якісну модель, залежить від набору даних, тому краще підбирати їх за допомогою GridSearchCV.

Note
Примітка

Під час використання логістичної регресії з регуляризацією важливо масштабувати дані. Регуляризація штрафує великі коефіцієнти, і без масштабування ознаки з більшими значеннями можуть спотворювати результати. Насправді, масштабування майже завжди необхідне — навіть якщо регуляризація не використовується.

Клас LogisticRegression за замовчуванням містить регуляризацію, тому слід або вимкнути регуляризацію (встановивши penalty=None), або масштабувати дані (наприклад, використовуючи StandardScaler).

Note
Примітка

Якщо ви використовуєте одночасно PolynomialFeatures та StandardScaler, переконайтеся, що застосовуєте StandardScaler після створення поліноміальних ознак. Масштабування даних до поліноміального розширення може спотворити отримані ознаки, оскільки операції, такі як піднесення до квадрату або множення вже стандартизованих значень, можуть призвести до неприродних розподілів.

1. Оберіть НЕПРАВИЛЬНЕ твердження.

2. Який правильний порядок попередньої обробки даних

question mark

Оберіть НЕПРАВИЛЬНЕ твердження.

Select the correct answer

question mark

Який правильний порядок попередньої обробки даних

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 25
some-alt