Lære Bagudpropagering | Neuralt Netværk fra Bunden

Baglæns forplantning, eller backpropagation, er processen hvor man bestemmer, hvordan tabfunktionen ændrer sig i forhold til hver parameter i det neurale netværk. Målet er at justere disse parametre på en måde, der reducerer det samlede tab.

Denne proces er baseret på gradient descent-algoritmen, som anvender afledte af tabet i forhold til hvert lags præ-aktiveringsværdier (de rå output før aktiveringsfunktionen anvendes) og forplanter dem baglæns gennem netværket.

Da hvert lag bidrager til den endelige forudsigelse, beregnes gradienterne trin for trin:

Udfør fremad forplantning for at opnå output;
Beregn den afledte af tabet i forhold til output præ-aktivering;
Forplant denne afledte baglæns gennem lagene ved hjælp af kædereglen;
Beregn og anvend gradienterne for vægte og bias til at opdatere dem under træning.

Bemærk

Gradienter repræsenterer ændringshastigheden af en funktion i forhold til dens input, hvilket betyder, at de er dens afledte. De angiver, hvor meget en lille ændring i vægte, bias eller aktiveringer påvirker tabfunktionen, og guider modellens læringsproces gennem gradient descent.

Notation

For at gøre forklaringen tydeligere, anvendes følgende notation:

$W^l$ er vægtmatricen for lag $l$ ;
$b^l$ er vektoren af bias for lag $l$ ;
$z^l$ er vektoren af præ-aktiveringer for lag $l$ ;
$a^l$ er vektoren af aktiveringer for lag $l$ ;

Ved at sætte $a^0$ til $x$ (input), kan fremad forplantning i en perceptron med n lag beskrives som følgende sekvens af operationer:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

For at beskrive backpropagation matematisk, introduceres følgende notationer:

$da^l$ : afledt af tabet med hensyn til aktiveringerne i lag $l$ ;
$dz^l$ : afledt af tabet med hensyn til præ-aktiveringerne i lag $l$ (før aktiveringsfunktionen anvendes);
$dW^l$ : afledt af tabet med hensyn til vægtene i lag $l$ ;
$db^l$ : afledt af tabet med hensyn til bias i lag $l$ .

Beregning af gradienter for outputlaget

I det sidste lag $n$ er det første skridt at beregne gradienten af tabet med hensyn til aktiveringerne i outputlaget, betegnet som $da^n$ .

Derefter, ved hjælp af kædereglen, beregnes gradienten af tabet med hensyn til præ-aktiveringerne i outputlaget som:

dz^n = da^n \odot f'^n(z^n)

Her repræsenterer $f'^n(z^n)$ den afledte af aktiveringsfunktionen i lag $n$ , og symbolet $\odot$ angiver elementvis multiplikation.

Bemærk

Symbolet $\odot$ angiver elementvis multiplikation, hvilket betyder, at hvert element i én vektor multipliceres med det tilsvarende element i en anden vektor. Til sammenligning repræsenterer symbolet $\cdot$ prikproduktet, som bruges til standard matrix- eller vektormultiplikation. Udtrykket $f'^n$ refererer til den afledte af aktiveringsfunktionen i outputlaget.

Denne værdi angiver, hvor følsom tab-funktionen er over for ændringer i præaktiveringsværdierne i outputlaget.

Efter beregning af $dz^n$ er det næste skridt at udregne gradienterne for vægte og bias:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Disse gradienter beskriver, hvor meget hver vægt og bias i outputlaget skal justeres for at minimere tabet.

Her er $(a^{n-1})^T$ den transponerede aktiveringsvektor fra det forrige lag. Hvis den oprindelige vektor har formen $n_{\text{neurons}} \times 1$ , har dens transponerede formen $1 \times n_{\text{neurons}}$ .

For at fortsætte baglænspropageringen beregnes den afledte af tabet med hensyn til aktiveringerne i det forrige lag som:

da^{n-1} = (W^n)^T \cdot dz^n

Dette udtryk muliggør, at fejl-signalet kan føres bagud gennem netværket, hvilket gør det muligt at justere tidligere lag under træningen.

Propagering af gradienter til de skjulte lag

For hvert skjult lag $l$ er proceduren den samme. Givet $da^l$ :

Beregn den afledte af tabet med hensyn til præaktiveringerne;
Beregn gradienterne for vægte og bias;
Beregn $da^{l-1}$ for at føre den afledte bagud.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Denne proces gentages for hvert forudgående lag, trin for trin, indtil inputlaget nås.

Opdatering af vægte og bias

Efter beregning af gradienterne for alle lag opdateres vægte og bias ved hjælp af gradient descent-algoritmen:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Her repræsenterer $\alpha$ læringsraten, som styrer, hvor meget parametrene justeres ved hvert træningsskridt.

Her er $\alpha$ læringsraten, en hyperparameter der bestemmer størrelsen af justeringen, der anvendes på vægte og bias ved hver opdatering.

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 7

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 4

Stryg for at vise menuen

Da hvert lag bidrager til den endelige forudsigelse, beregnes gradienterne trin for trin:

Udfør fremad forplantning for at opnå output;
Beregn den afledte af tabet i forhold til output præ-aktivering;
Forplant denne afledte baglæns gennem lagene ved hjælp af kædereglen;
Beregn og anvend gradienterne for vægte og bias til at opdatere dem under træning.

Bemærk

Notation

For at gøre forklaringen tydeligere, anvendes følgende notation:

$W^l$ er vægtmatricen for lag $l$ ;
$b^l$ er vektoren af bias for lag $l$ ;
$z^l$ er vektoren af præ-aktiveringer for lag $l$ ;
$a^l$ er vektoren af aktiveringer for lag $l$ ;

Ved at sætte $a^0$ til $x$ (input), kan fremad forplantning i en perceptron med n lag beskrives som følgende sekvens af operationer:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

For at beskrive backpropagation matematisk, introduceres følgende notationer:

$da^l$ : afledt af tabet med hensyn til aktiveringerne i lag $l$ ;
$dz^l$ : afledt af tabet med hensyn til præ-aktiveringerne i lag $l$ (før aktiveringsfunktionen anvendes);
$dW^l$ : afledt af tabet med hensyn til vægtene i lag $l$ ;
$db^l$ : afledt af tabet med hensyn til bias i lag $l$ .

Beregning af gradienter for outputlaget

I det sidste lag $n$ er det første skridt at beregne gradienten af tabet med hensyn til aktiveringerne i outputlaget, betegnet som $da^n$ .

Derefter, ved hjælp af kædereglen, beregnes gradienten af tabet med hensyn til præ-aktiveringerne i outputlaget som:

dz^n = da^n \odot f'^n(z^n)

Her repræsenterer $f'^n(z^n)$ den afledte af aktiveringsfunktionen i lag $n$ , og symbolet $\odot$ angiver elementvis multiplikation.

Bemærk

Denne værdi angiver, hvor følsom tab-funktionen er over for ændringer i præaktiveringsværdierne i outputlaget.

Efter beregning af $dz^n$ er det næste skridt at udregne gradienterne for vægte og bias:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Disse gradienter beskriver, hvor meget hver vægt og bias i outputlaget skal justeres for at minimere tabet.

For at fortsætte baglænspropageringen beregnes den afledte af tabet med hensyn til aktiveringerne i det forrige lag som:

da^{n-1} = (W^n)^T \cdot dz^n

Dette udtryk muliggør, at fejl-signalet kan føres bagud gennem netværket, hvilket gør det muligt at justere tidligere lag under træningen.

Propagering af gradienter til de skjulte lag

For hvert skjult lag $l$ er proceduren den samme. Givet $da^l$ :

Beregn den afledte af tabet med hensyn til præaktiveringerne;
Beregn gradienterne for vægte og bias;
Beregn $da^{l-1}$ for at føre den afledte bagud.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Denne proces gentages for hvert forudgående lag, trin for trin, indtil inputlaget nås.

Opdatering af vægte og bias

Efter beregning af gradienterne for alle lag opdateres vægte og bias ved hjælp af gradient descent-algoritmen:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Her repræsenterer $\alpha$ læringsraten, som styrer, hvor meget parametrene justeres ved hvert træningsskridt.

Her er $\alpha$ læringsraten, en hyperparameter der bestemmer størrelsen af justeringen, der anvendes på vægte og bias ved hver opdatering.

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 7