Вивчайте Градієнтний спуск | Математичний Аналіз

Визначення

Градієнтний спуск — це алгоритм оптимізації, який мінімізує функцію шляхом ітеративного коригування її параметрів у напрямку найкрутшого спаду. Він є фундаментальним у машинному навчанні, оскільки дозволяє моделям ефективно навчатися на даних.

Розуміння градієнтів

Градієнт функції відображає напрямок і крутість функції в заданій точці. Він показує, у який бік рухатися, щоб мінімізувати функцію.

Для простої функції:

J(\theta) = \theta^2

Похідна (градієнт) дорівнює:

\nabla J(\theta) = \frac{d}{d \theta}\left(\theta^2\right)= 2\theta

Це означає, що для будь-якого значення $θ$ градієнт показує, як змінити $θ$ , щоб спуститися до мінімуму.

Формула градієнтного спуску

Правило оновлення ваги:

\theta \larr \theta - \alpha \nabla J(\theta)

Де:

$\theta$ — параметр моделі;
$\alpha$ — швидкість навчання (розмір кроку);
$\nabla J(\theta)$ — градієнт функції, яку потрібно мінімізувати.

Для нашої функції:

\theta_{\text{new}} = \theta_{\text{old}} - \alpha\left(2\theta_{old}\right)

Це означає, що ми оновлюємо $θ$ ітеративно, віднімаючи масштабований градієнт.

Поступовий рух – візуальний приклад

Приклад із початковими значеннями: $\theta = 3$ , $\alpha = 0.3$

$\theta_1 = 3 - 0.3(2 \times 3) = 3 - 1.8 = 1.2;$
$\theta_2 = 1.2 - 0.3(2 \times 1.2) = 1.2 - 0.72 = 0.48;$
$\theta_3 = 0.48 - 0.3(2\times0.48) = 0.48 - 0.288 = 0.192;$
$\theta_4 = 0.192 - 0.3(2 \times 0.192) = 0.192 - 0.115 = 0.077.$

Після декількох ітерацій ми наближаємося до $θ=0$ , мінімуму.

Коефіцієнт навчання – обираємо α розумно

Занадто велике $\ \alpha$ – перепригування, відсутність збіжності;
Занадто мале $\ \alpha$ – надто повільна збіжність;
Оптимальне $\ \alpha$ – баланс швидкості та точності.

Коли зупиняється градієнтний спуск?

Градієнтний спуск зупиняється, коли:

\nabla J (\theta) \approx 0

Це означає, що подальші оновлення незначні і знайдено мінімум.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 9

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to choose a good learning rate?

What happens if the gradient never reaches zero?

Can you show a real-world example where gradient descent is used?

Свайпніть щоб показати меню