Вивчайте Знаходження Параметрів

Свайпніть щоб показати меню

Логістична регресія вимагає від комп'ютера лише навчитися знаходити найкращі параметри $β$ . Для цього потрібно визначити, що означає «найкращі параметри». Згадаємо, як працює модель: вона передбачає $p$ — ймовірність належності до класу 1:

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Де

\sigma (z) = \frac{1}{1 + e^{-z}}

Очевидно, що модель з хорошими параметрами — це та, яка прогнозує високе (близьке до 1) $p$ для об'єктів, що дійсно належать до класу 1, і низьке (близьке до 0) $p$ для об'єктів з фактичним класом 0.

Щоб оцінити, наскільки хороша чи погана модель, використовується функція втрат. У лінійній регресії ми використовували MSE (середньоквадратичну помилку) як функцію втрат. Цього разу використовується інша функція:

Тут $p$ позначає ймовірність належності до класу 1, яку передбачає модель, а $y$ — це фактичне значення цільової змінної.

Ця функція не лише штрафує за неправильні передбачення, але й враховує впевненість моделі у своїх прогнозах. Як показано на зображенні вище, коли значення $p$ близьке до $y$ (фактичної цілі), функція втрат залишається відносно малою, що свідчить про впевнений вибір правильної категорії. Навпаки, якщо передбачення неправильне, функція втрат зростає експоненціально зі збільшенням впевненості моделі у неправильному класі.

У контексті бінарної класифікації із сигмоїдною функцією використовується функція втрат, яка називається бінарна крос-ентропія (binary cross-entropy loss), як показано вище. Важливо зазначити, що існує також загальна форма — крос-ентропія (або категоріальна крос-ентропія), яка використовується для задач багатокласової класифікації.

Категоріальна крос-ентропія для одного навчального прикладу обчислюється так:

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Де

$C$ — кількість класів;
$y_i$ — фактичне значення цільової змінної (1, якщо клас є правильним, 0 — інакше);
$p_i$ — передбачена ймовірність належності прикладу до класу $i$ .

Ми обчислюємо функцію втрат для кожного навчального прикладу та беремо середнє значення. Це середнє називається функцією вартості (cost function). Логістична регресія знаходить параметри $\beta$ , які мінімізують функцію вартості.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 2

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 2. Розділ 2