Lernen Rückwärtspropagation | Neural Network von Grund Auf

Rückwärtspropagation oder Backpropagation ist der Prozess, bei dem bestimmt wird, wie sich die Verlustfunktion in Bezug auf jeden Parameter im neuronalen Netzwerk verändert. Das Ziel ist es, diese Parameter so anzupassen, dass der Gesamtverlust verringert wird.

Dieser Prozess basiert auf dem Gradientenabstiegsalgorithmus, der die Ableitungen des Verlusts in Bezug auf die Pre-Aktivierungswerte jeder Schicht (die Rohwerte vor Anwendung der Aktivierungsfunktion) verwendet und diese rückwärts durch das Netzwerk propagiert.

Da jede Schicht zur endgültigen Vorhersage beiträgt, werden die Gradienten schrittweise berechnet:

Vorwärtspropagation durchführen, um die Ausgaben zu erhalten;
Die Ableitung des Verlusts in Bezug auf die Pre-Aktivierung des Ausgangs berechnen;
Diese Ableitung mithilfe der Kettenregel rückwärts durch die Schichten propagieren;
Die Gradienten für Gewichte und Bias berechnen und verwenden, um diese während des Trainings zu aktualisieren.

Hinweis

Gradienten stellen die Änderungsrate einer Funktion in Bezug auf ihre Eingaben dar, das heißt, sie sind deren Ableitungen. Sie zeigen an, wie stark eine kleine Änderung der Gewichte, Bias oder Aktivierungen die Verlustfunktion beeinflusst und steuern so den Lernprozess des Modells durch den Gradientenabstieg.

Notation

Um die Erklärung zu verdeutlichen, verwenden wir die folgende Notation:

$W^l$ ist die Gewichtsmatrix der Schicht $l$ ;
$b^l$ ist der Bias-Vektor der Schicht $l$ ;
$z^l$ ist der Pre-Aktivierungsvektor der Schicht $l$ ;
$a^l$ ist der Aktivierungsvektor der Schicht $l$ ;

Wenn man also $a^0$ auf $x$ (die Eingaben) setzt, kann die Vorwärtspropagation in einem Perzeptron mit n Schichten durch die folgende Abfolge von Operationen beschrieben werden:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Um die Rückpropagation mathematisch zu beschreiben, werden folgende Notationen eingeführt:

$da^l$ : Ableitung des Verlusts bezüglich der Aktivierungen in Schicht $l$ ;
$dz^l$ : Ableitung des Verlusts bezüglich der Präaktivierungen in Schicht $l$ (vor Anwendung der Aktivierungsfunktion);
$dW^l$ : Ableitung des Verlusts bezüglich der Gewichte in Schicht $l$ ;
$db^l$ : Ableitung des Verlusts bezüglich der Biases in Schicht $l$ .

Gradientenberechnung für die Ausgabeschicht

In der letzten Schicht $n$ besteht der erste Schritt darin, den Gradienten des Verlusts bezüglich der Aktivierungen der Ausgabeschicht, bezeichnet als $da^n$ , zu berechnen.

Anschließend wird mithilfe der Kettenregel der Gradient des Verlusts bezüglich der Präaktivierungen der Ausgabeschicht wie folgt berechnet:

dz^n = da^n \odot f'^n(z^n)

Hierbei steht $f'^n(z^n)$ für die Ableitung der Aktivierungsfunktion in Schicht $n$ , und das Symbol $\odot$ bezeichnet die elementweise Multiplikation.

Hinweis

Das Symbol $\odot$ bezeichnet die elementweise Multiplikation, bei der jedes Element eines Vektors mit dem entsprechenden Element eines anderen Vektors multipliziert wird. Im Gegensatz dazu steht das Symbol $\cdot$ für das Skalarprodukt, das bei der üblichen Matrix- oder Vektormultiplikation verwendet wird. Der Ausdruck $f'^n$ bezeichnet die Ableitung der Aktivierungsfunktion in der Ausgabeschicht.

Dieser Wert gibt an, wie empfindlich die Verlustfunktion auf Änderungen der Voraktivierungswerte der Ausgabeschicht reagiert.

Nach der Berechnung von $dz^n$ besteht der nächste Schritt darin, die Gradienten für die Gewichte und Biases zu berechnen:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Diese Gradienten beschreiben, wie stark jedes Gewicht und jeder Bias in der Ausgabeschicht angepasst werden sollte, um den Verlust zu verringern.

Hierbei ist $(a^{n-1})^T$ der transponierte Aktivierungsvektor der vorherigen Schicht. Wenn der ursprüngliche Vektor die Form $n_{\text{neurons}} \times 1$ hat, besitzt seine Transponierte die Form $1 \times n_{\text{neurons}}$ .

Um die Rückpropagation fortzusetzen, wird die Ableitung des Verlusts bezüglich der Aktivierungen der vorherigen Schicht wie folgt berechnet:

da^{n-1} = (W^n)^T \cdot dz^n

Dieser Ausdruck ermöglicht es, das Fehlersignal rückwärts durch das Netzwerk zu leiten, sodass frühere Schichten während des Trainings angepasst werden können.

Gradientenweitergabe an die versteckten Schichten

Für jede versteckte Schicht $l$ ist das Vorgehen identisch. Gegeben $da^l$ :

Berechnung der Ableitung des Verlusts bezüglich der Voraktivierungen;
Berechnung der Gradienten für die Gewichte und Biases;
Berechnung von $da^{l-1}$ zur Weitergabe der Ableitung nach hinten.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Dieser Prozess wird für jede vorhergehende Schicht schrittweise wiederholt, bis die Eingabeschicht erreicht ist.

Aktualisierung von Gewichten und Biases

Nach der Berechnung der Gradienten für alle Schichten werden die Gewichte und Biases mithilfe des Gradientenabstiegs-Algorithmus aktualisiert:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Hierbei steht $\alpha$ für die Lernrate, die steuert, wie stark die Parameter bei jedem Trainingsschritt angepasst werden.

Hierbei ist $\alpha$ die Lernrate, ein Hyperparameter, der die Größe der Anpassung der Gewichte und Biases bei jedem Aktualisierungsschritt bestimmt.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 7

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how the chain rule is applied in backpropagation?

What is the difference between pre-activations and activations in a neural network?

Can you provide an example of calculating gradients for a simple neural network?

Awesome!

Completion rate improved to 4

Swipe um das Menü anzuzeigen

Da jede Schicht zur endgültigen Vorhersage beiträgt, werden die Gradienten schrittweise berechnet:

Vorwärtspropagation durchführen, um die Ausgaben zu erhalten;
Die Ableitung des Verlusts in Bezug auf die Pre-Aktivierung des Ausgangs berechnen;
Diese Ableitung mithilfe der Kettenregel rückwärts durch die Schichten propagieren;
Die Gradienten für Gewichte und Bias berechnen und verwenden, um diese während des Trainings zu aktualisieren.

Hinweis

Notation

Um die Erklärung zu verdeutlichen, verwenden wir die folgende Notation:

$W^l$ ist die Gewichtsmatrix der Schicht $l$ ;
$b^l$ ist der Bias-Vektor der Schicht $l$ ;
$z^l$ ist der Pre-Aktivierungsvektor der Schicht $l$ ;
$a^l$ ist der Aktivierungsvektor der Schicht $l$ ;

Wenn man also $a^0$ auf $x$ (die Eingaben) setzt, kann die Vorwärtspropagation in einem Perzeptron mit n Schichten durch die folgende Abfolge von Operationen beschrieben werden:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Um die Rückpropagation mathematisch zu beschreiben, werden folgende Notationen eingeführt:

$da^l$ : Ableitung des Verlusts bezüglich der Aktivierungen in Schicht $l$ ;
$dz^l$ : Ableitung des Verlusts bezüglich der Präaktivierungen in Schicht $l$ (vor Anwendung der Aktivierungsfunktion);
$dW^l$ : Ableitung des Verlusts bezüglich der Gewichte in Schicht $l$ ;
$db^l$ : Ableitung des Verlusts bezüglich der Biases in Schicht $l$ .

Gradientenberechnung für die Ausgabeschicht

In der letzten Schicht $n$ besteht der erste Schritt darin, den Gradienten des Verlusts bezüglich der Aktivierungen der Ausgabeschicht, bezeichnet als $da^n$ , zu berechnen.

Anschließend wird mithilfe der Kettenregel der Gradient des Verlusts bezüglich der Präaktivierungen der Ausgabeschicht wie folgt berechnet:

dz^n = da^n \odot f'^n(z^n)

Hierbei steht $f'^n(z^n)$ für die Ableitung der Aktivierungsfunktion in Schicht $n$ , und das Symbol $\odot$ bezeichnet die elementweise Multiplikation.

Hinweis

Dieser Wert gibt an, wie empfindlich die Verlustfunktion auf Änderungen der Voraktivierungswerte der Ausgabeschicht reagiert.

Nach der Berechnung von $dz^n$ besteht der nächste Schritt darin, die Gradienten für die Gewichte und Biases zu berechnen:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Diese Gradienten beschreiben, wie stark jedes Gewicht und jeder Bias in der Ausgabeschicht angepasst werden sollte, um den Verlust zu verringern.

Um die Rückpropagation fortzusetzen, wird die Ableitung des Verlusts bezüglich der Aktivierungen der vorherigen Schicht wie folgt berechnet:

da^{n-1} = (W^n)^T \cdot dz^n

Dieser Ausdruck ermöglicht es, das Fehlersignal rückwärts durch das Netzwerk zu leiten, sodass frühere Schichten während des Trainings angepasst werden können.

Gradientenweitergabe an die versteckten Schichten

Für jede versteckte Schicht $l$ ist das Vorgehen identisch. Gegeben $da^l$ :

Berechnung der Ableitung des Verlusts bezüglich der Voraktivierungen;
Berechnung der Gradienten für die Gewichte und Biases;
Berechnung von $da^{l-1}$ zur Weitergabe der Ableitung nach hinten.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Dieser Prozess wird für jede vorhergehende Schicht schrittweise wiederholt, bis die Eingabeschicht erreicht ist.

Aktualisierung von Gewichten und Biases

Nach der Berechnung der Gradienten für alle Schichten werden die Gewichte und Biases mithilfe des Gradientenabstiegs-Algorithmus aktualisiert:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Hierbei steht $\alpha$ für die Lernrate, die steuert, wie stark die Parameter bei jedem Trainingsschritt angepasst werden.

Hierbei ist $\alpha$ die Lernrate, ein Hyperparameter, der die Größe der Anpassung der Gewichte und Biases bei jedem Aktualisierungsschritt bestimmt.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 7