Вивчайте Переобучення | Вибір Найкращої Моделі

Перенавчання

Розгляньте дві регресійні прямі нижче. Яка з них краща?

Метрики вказують, що друга модель краща, тому її використовують для прогнозування X_new = [0.2, 0.5, 2.7]. Однак після порівняння прогнозів із фактичними значеннями перша модель показує кращі результати.

Це відбувається через те, що друга модель перенавчається — вона надто складна й надто точно відтворює тренувальні дані, не здатна узагальнювати на нові випадки.

Недонавчання

Недонавчання виникає, коли модель є занадто простою, щоб підлаштуватися навіть під тренувальні дані, що також призводить до низької якості прогнозів на невідомих даних.

Отже, ми можемо спробувати визначити, чи модель недонавчається або перенавчається, візуально.

Оскільки ми не можемо візуалізувати багатовимірні моделі, нам потрібен інший спосіб виявлення перенавчання або недонавчання.

Розділення на тренувальну та тестову вибірки

Для оцінки продуктивності на невідомих даних набір даних розділяється на тренувальну та тестову вибірки з відомими цільовими значеннями.

Навчання проводиться на тренувальній вибірці, а метрики обчислюються як для тренувальної, так і для тестової вибірки для порівняння результатів.

Розділення повинно бути випадковим. Зазвичай 20–30% даних виділяється для тестової вибірки, а 70–80% використовується для навчання. Scikit-learn надає зручний спосіб для цього.

Наприклад, щоб розділити навчальний набір на 70% для навчання та 30% для тестування, можна використати наступний код:

from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 4. Розділ 2

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Свайпніть щоб показати меню