Вивчайте Зворотне Поширення Помилки

Зворотне поширення, або backpropagation, — це процес визначення, як функція втрат змінюється відносно кожного параметра в нейронній мережі. Мета полягає в тому, щоб налаштувати ці параметри так, щоб зменшити загальні втрати.

Цей процес базується на алгоритмі градієнтного спуску, який використовує похідні функції втрат відносно попередньо активованих значень кожного шару (сирі вихідні дані до застосування функції активації) та поширює їх у зворотному напрямку через мережу.

Оскільки кожен шар впливає на кінцевий прогноз, градієнти обчислюються крок за кроком:

Виконати пряме поширення для отримання вихідних значень;
Обчислити похідну функції втрат відносно попередньо активованого виходу;
Поширити цю похідну у зворотному напрямку через шари за допомогою правила ланцюга;
Обчислити та використати градієнти для ваг і зсувів для їх оновлення під час навчання.

Примітка

Градієнти відображають швидкість зміни функції відносно її вхідних даних, тобто є її похідними. Вони показують, наскільки невелика зміна ваг, зсувів або активацій впливає на функцію втрат, спрямовуючи процес навчання моделі за допомогою градієнтного спуску.

Позначення

Для кращого розуміння скористаємося наступними позначеннями:

$W^l$ — матриця ваг шару $l$ ;
$b^l$ — вектор зсувів шару $l$ ;
$z^l$ — вектор попередньо активованих значень шару $l$ ;
$a^l$ — вектор активацій шару $l$ ;

Таким чином, якщо $a^0$ дорівнює $x$ (вхідні дані), пряме поширення у перцептроні з n шарами можна описати наступною послідовністю операцій:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Щоб математично описати зворотне поширення помилки, вводяться наступні позначення:

$da^l$ : похідна функції втрат за активаціями на шарі $l$ ;
$dz^l$ : похідна функції втрат за передактиваціями на шарі $l$ (до застосування функції активації);
$dW^l$ : похідна функції втрат за вагами на шарі $l$ ;
$db^l$ : похідна функції втрат за зміщеннями на шарі $l$ .

Обчислення градієнтів для вихідного шару

На фінальному шарі $n$ першим кроком є обчислення градієнта функції втрат за активаціями вихідного шару, що позначається як $da^n$ .

Далі, використовуючи правило ланцюга, обчислюється градієнт функції втрат за передактиваціями вихідного шару:

dz^n = da^n \odot f'^n(z^n)

Тут $f'^n(z^n)$ — це похідна функції активації на шарі $n$ , а символ $\odot$ позначає покомпонентне множення.

Примітка

Символ $\odot$ позначає покомпонентне множення, тобто кожен елемент одного вектора множиться на відповідний елемент іншого вектора. На відміну від цього, символ $\cdot$ означає скалярний добуток, який використовується для стандартного множення матриць або векторів. Позначення $f'^n$ відноситься до похідної функції активації на вихідному шарі.

Це значення показує, наскільки чутлива функція втрат до змін у передактиваційних значеннях вихідного шару.

Після обчислення $dz^n$ наступним кроком є обчислення градієнтів для ваг і зсувів:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Ці градієнти описують, наскільки потрібно скоригувати кожну вагу та зсув у вихідному шарі для зменшення втрат.

Тут $(a^{n-1})^T$ — це транспонований вектор активацій з попереднього шару. Якщо початковий вектор має розмірність $n_{\text{neurons}} \times 1$ , його транспонований вигляд має розмірність $1 \times n_{\text{neurons}}$ .

Для продовження зворотного поширення похідна функції втрат за активаціями попереднього шару обчислюється так:

da^{n-1} = (W^n)^T \cdot dz^n

Цей вираз дозволяє передавати сигнал помилки назад мережею, забезпечуючи коригування попередніх шарів під час навчання.

Поширення градієнтів до прихованих шарів

Для кожного прихованого шару $l$ процедура однакова. Маючи $da^l$ :

Обчислити похідну функції втрат за передактиваціями;
Обчислити градієнти для ваг і зсувів;
Обчислити $da^{l-1}$ для поширення похідної назад.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Цей процес повторюється для кожного попереднього шару, крок за кроком, доки не буде досягнуто вхідного шару.

Оновлення ваг і зміщень

Після обчислення градієнтів для всіх шарів ваги та зміщення оновлюються за допомогою алгоритму градієнтного спуску:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Тут $\alpha$ позначає швидкість навчання, яка визначає, наскільки сильно параметри коригуються під час кожного кроку навчання.

Тут $\alpha$ — це швидкість навчання, гіперпараметр, що визначає розмір коригування, яке застосовується до ваг і зміщень під час кожного кроку оновлення.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 7

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 4

Свайпніть щоб показати меню

Оскільки кожен шар впливає на кінцевий прогноз, градієнти обчислюються крок за кроком:

Виконати пряме поширення для отримання вихідних значень;
Обчислити похідну функції втрат відносно попередньо активованого виходу;
Поширити цю похідну у зворотному напрямку через шари за допомогою правила ланцюга;
Обчислити та використати градієнти для ваг і зсувів для їх оновлення під час навчання.

Примітка

Позначення

Для кращого розуміння скористаємося наступними позначеннями:

$W^l$ — матриця ваг шару $l$ ;
$b^l$ — вектор зсувів шару $l$ ;
$z^l$ — вектор попередньо активованих значень шару $l$ ;
$a^l$ — вектор активацій шару $l$ ;

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Щоб математично описати зворотне поширення помилки, вводяться наступні позначення:

$da^l$ : похідна функції втрат за активаціями на шарі $l$ ;
$dz^l$ : похідна функції втрат за передактиваціями на шарі $l$ (до застосування функції активації);
$dW^l$ : похідна функції втрат за вагами на шарі $l$ ;
$db^l$ : похідна функції втрат за зміщеннями на шарі $l$ .

Обчислення градієнтів для вихідного шару

dz^n = da^n \odot f'^n(z^n)

Тут $f'^n(z^n)$ — це похідна функції активації на шарі $n$ , а символ $\odot$ позначає покомпонентне множення.

Примітка

Після обчислення $dz^n$ наступним кроком є обчислення градієнтів для ваг і зсувів:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

da^{n-1} = (W^n)^T \cdot dz^n

Поширення градієнтів до прихованих шарів

Для кожного прихованого шару $l$ процедура однакова. Маючи $da^l$ :

Обчислити похідну функції втрат за передактиваціями;
Обчислити градієнти для ваг і зсувів;
Обчислити $da^{l-1}$ для поширення похідної назад.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Оновлення ваг і зміщень

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 7