Вивчайте Реалізація Зворотного Поширення Помилки

Свайпніть щоб показати меню

Загальний підхід

Під час прямого поширення кожен шар $l$ отримує на вхід вихідні значення попереднього шару, $a^{l-1}$ , і обчислює власні виходи. Тому метод forward() класу Layer приймає вектор попередніх виходів як єдиний параметр, а вся інша необхідна інформація зберігається всередині класу.

Під час зворотного поширення кожному шару $l$ потрібен лише $da^l$ для обчислення відповідних градієнтів і повернення $da^{l-1}$ , тому метод backward() приймає вектор $da^l$ як параметр. Вся інша необхідна інформація вже зберігається в класі Layer.

Похідні функцій активації

Оскільки для зворотного поширення потрібні похідні функцій активації, такі функції активації, як ReLU та sigmoid, слід реалізовувати у вигляді класів, а не окремих функцій. Така структура дозволяє чітко визначити обидва компоненти:

Сама функція активації — реалізується через метод __call__(), щоб її можна було застосовувати безпосередньо в класі Layer за допомогою self.activation(z);
Її похідна — реалізується через метод derivative(), що забезпечує ефективне обчислення під час зворотного поширення через self.activation.derivative(z).

Представлення функцій активації у вигляді об'єктів спрощує їх передачу різним шарам і динамічне застосування під час як прямого, так і зворотного поширення.

ReLu

Похідна функції активації ReLU виглядає наступним чином, де $z_i$ — це елемент вектора преактивацій $z$ :

f'(z_i) = \begin{cases} 1, z_i > 0\\ 0, z_i \le 0 \end{cases}

class ReLU:
    def __call__(self, z):
        return np.maximum(0, z)

    def derivative(self, z):
        return (z > 0).astype(float)

Сигмоїда

Похідна сигмоїдної функції активації має вигляд:

f'(z_i) = f(z_i) \cdot (1 - f(z_i))

class Sigmoid:
    def __call__(self, x):
        return 1 / (1 + np.exp(-z))

    def derivative(self, z):
        sig = self(z)
        return sig * (1 - sig)

Для обох функцій активації операція застосовується до всього вектора $z$ , а також до його похідної. NumPy автоматично виконує обчислення елементно, тобто кожен елемент вектора обробляється незалежно.

Наприклад, якщо вектор $z$ містить три елементи, похідна обчислюється так:

f'(z) = f'\left( \begin{bmatrix} z_1\\ z_2\\ z_3 \end{bmatrix} \right) = \begin{bmatrix} f'(z_1)\\ f'(z_2)\\ f'(z_3) \end{bmatrix}

Метод backward()

Метод backward() відповідає за обчислення градієнтів за допомогою наступних формул:

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

a^{l-1} та $z^l$ зберігаються як атрибути inputs та outputs відповідно у класі Layer. Функція активації $f$ зберігається як атрибут activation.

Після обчислення всіх необхідних градієнтів можна оновити ваги та зміщення, оскільки вони більше не потрібні для подальших обчислень:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l\\ b^l &= b^l - \alpha \cdot db^l \end{aligned}

Таким чином, learning_rate ( $\alpha$ ) є ще одним параметром цього методу.

def backward(self, da, learning_rate):
    dz = ...
    d_weights = ...
    d_biases = ...
    da_prev = ...

    self.weights -= learning_rate * d_weights
    self.biases -= learning_rate * d_biases

    return da_prev

Примітка

Оператор * виконує покомпонентне множення, тоді як функція np.dot() виконує скалярний добуток у NumPy. Атрибут .T транспонує масив.

Яке з наведеного найкраще описує роль методу backward() у класі Layer під час зворотного поширення помилки?

Виберіть правильну відповідь

Оновлює ваги та зсуви шляхом множення їх на похідну функції активації.

Коригує лише зсуви, тоді як ваги залишаються незмінними протягом навчання.

Обчислює градієнти для ваг і зсувів, оновлює їх із використанням коефіцієнта навчання та поширює похідну назад.

Лише обчислює градієнти для ваг і зсувів та поширює похідну назад.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 15

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 1. Розділ 15