Lære Bakoverpropagasjon | Nevralt Nettverk fra Bunnen Av

Bakoverpropagasjon, eller backpropagation, er prosessen med å bestemme hvordan tapfunksjonen endres med hensyn til hver parameter i nevrale nettverket. Målet er å justere disse parameterne på en måte som reduserer det totale tapet.

Denne prosessen baserer seg på gradient descent-algoritmen, som bruker derivater av tapet med hensyn til hvert lags pre-aktiveringsverdier (de rå utgangene før aktiveringsfunksjonen anvendes) og sprer dem bakover gjennom nettverket.

Siden hvert lag bidrar til den endelige prediksjonen, beregnes gradientene steg for steg:

Utfør fremoverpropagasjon for å få utgangene;
Beregn derivaten av tapet med hensyn til utgangens pre-aktivering;
Propager denne derivaten bakover gjennom lagene ved hjelp av kjerneregelen;
Beregn og bruk gradientene for vekter og bias for å oppdatere dem under trening.

Merk

Gradienter representerer endringsraten til en funksjon med hensyn til dens input, altså dens derivater. De indikerer hvor mye en liten endring i vekter, bias eller aktiveringer påvirker tapfunksjonen, og styrer modellens læringsprosess gjennom gradient descent.

Notasjon

For å gjøre forklaringen tydeligere, bruker vi følgende notasjon:

$W^l$ er vektmatrisen til lag $l$ ;
$b^l$ er bias-vektoren til lag $l$ ;
$z^l$ er pre-aktiveringsvektoren til lag $l$ ;
$a^l$ er aktiveringsvektoren til lag $l$ ;

Ved å sette $a^0$ til $x$ (inputene), kan fremoverpropagasjon i en perseptron med n lag beskrives som følgende sekvens av operasjoner:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

For å beskrive tilbakepropagasjon matematisk, introduseres følgende notasjoner:

$da^l$ : derivert av tapet med hensyn til aktiveringene i lag $l$ ;
$dz^l$ : derivert av tapet med hensyn til pre-aktiveringene i lag $l$ (før aktiveringsfunksjonen anvendes);
$dW^l$ : derivert av tapet med hensyn til vektene i lag $l$ ;
$db^l$ : derivert av tapet med hensyn til biasene i lag $l$ .

Beregning av gradienter for utgangslaget

I det siste laget $n$ er det første steget å beregne gradienten av tapet med hensyn til aktiveringene i utgangslaget, betegnet som $da^n$ .

Deretter, ved bruk av kjerneregelen, beregnes gradienten av tapet med hensyn til pre-aktiveringene i utgangslaget som:

dz^n = da^n \odot f'^n(z^n)

Her representerer $f'^n(z^n)$ den deriverte av aktiveringsfunksjonen i lag $n$ , og symbolet $\odot$ angir elementvis multiplikasjon.

Merk

Symbolet $\odot$ angir elementvis multiplikasjon, som betyr at hvert element i én vektor multipliseres med det tilsvarende elementet i en annen vektor. Til sammenligning representerer symbolet $\cdot$ skalarproduktet, som brukes for vanlig matrise- eller vektormultiplikasjon. Begrepet $f'^n$ refererer til den deriverte av aktiveringsfunksjonen i utgangslaget.

Denne verdien indikerer hvor sensitiv tapfunksjonen er for endringer i preaktiveringsverdiene til utgangslaget.

Etter å ha beregnet $dz^n$ , er neste steg å kalkulere gradientene for vektene og biasene:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Disse gradientene beskriver hvor mye hver vekt og bias i utgangslaget bør justeres for å redusere tapet.

Her er $(a^{n-1})^T$ den transponerte aktiveringsvektoren fra forrige lag. Hvis den opprinnelige vektoren har formen $n_{\text{neurons}} \times 1$ , har dens transponerte formen $1 \times n_{\text{neurons}}$ .

For å fortsette bakoverpropageringen, beregnes den deriverte av tapet med hensyn til aktiveringene i forrige lag som:

da^{n-1} = (W^n)^T \cdot dz^n

Dette uttrykket gjør det mulig å sende feilsignalet bakover gjennom nettverket, slik at tidligere lag kan justeres under treningen.

Propagering av gradienter til de skjulte lagene

For hvert skjult lag $l$ er prosedyren den samme. Gitt $da^l$ :

Beregn den deriverte av tapet med hensyn til preaktiveringene;
Beregn gradientene for vektene og biasene;
Beregn $da^{l-1}$ for å propagere den deriverte bakover.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Denne prosessen gjentas for hvert foregående lag, trinn for trinn, til input-laget er nådd.

Oppdatering av vekter og bias

Etter å ha beregnet gradientene for alle lag, oppdateres vektene og bias ved hjelp av gradient descent-algoritmen:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Her representerer $\alpha$ læringsraten, som styrer hvor mye parameterne justeres i hvert treningssteg.

Her er $\alpha$ læringsraten, en hyperparameter som bestemmer størrelsen på justeringen som brukes på vektene og bias i hvert oppdateringssteg.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 7

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain how the chain rule is applied in backpropagation?

What is the difference between pre-activations and activations in a neural network?

Can you provide an example of calculating gradients for a simple neural network?

Awesome!

Completion rate improved to 4

Sveip for å vise menyen

Siden hvert lag bidrar til den endelige prediksjonen, beregnes gradientene steg for steg:

Utfør fremoverpropagasjon for å få utgangene;
Beregn derivaten av tapet med hensyn til utgangens pre-aktivering;
Propager denne derivaten bakover gjennom lagene ved hjelp av kjerneregelen;
Beregn og bruk gradientene for vekter og bias for å oppdatere dem under trening.

Merk

Notasjon

For å gjøre forklaringen tydeligere, bruker vi følgende notasjon:

$W^l$ er vektmatrisen til lag $l$ ;
$b^l$ er bias-vektoren til lag $l$ ;
$z^l$ er pre-aktiveringsvektoren til lag $l$ ;
$a^l$ er aktiveringsvektoren til lag $l$ ;

Ved å sette $a^0$ til $x$ (inputene), kan fremoverpropagasjon i en perseptron med n lag beskrives som følgende sekvens av operasjoner:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

For å beskrive tilbakepropagasjon matematisk, introduseres følgende notasjoner:

$da^l$ : derivert av tapet med hensyn til aktiveringene i lag $l$ ;
$dz^l$ : derivert av tapet med hensyn til pre-aktiveringene i lag $l$ (før aktiveringsfunksjonen anvendes);
$dW^l$ : derivert av tapet med hensyn til vektene i lag $l$ ;
$db^l$ : derivert av tapet med hensyn til biasene i lag $l$ .

Beregning av gradienter for utgangslaget

I det siste laget $n$ er det første steget å beregne gradienten av tapet med hensyn til aktiveringene i utgangslaget, betegnet som $da^n$ .

Deretter, ved bruk av kjerneregelen, beregnes gradienten av tapet med hensyn til pre-aktiveringene i utgangslaget som:

dz^n = da^n \odot f'^n(z^n)

Her representerer $f'^n(z^n)$ den deriverte av aktiveringsfunksjonen i lag $n$ , og symbolet $\odot$ angir elementvis multiplikasjon.

Merk

Denne verdien indikerer hvor sensitiv tapfunksjonen er for endringer i preaktiveringsverdiene til utgangslaget.

Etter å ha beregnet $dz^n$ , er neste steg å kalkulere gradientene for vektene og biasene:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Disse gradientene beskriver hvor mye hver vekt og bias i utgangslaget bør justeres for å redusere tapet.

For å fortsette bakoverpropageringen, beregnes den deriverte av tapet med hensyn til aktiveringene i forrige lag som:

da^{n-1} = (W^n)^T \cdot dz^n

Dette uttrykket gjør det mulig å sende feilsignalet bakover gjennom nettverket, slik at tidligere lag kan justeres under treningen.

Propagering av gradienter til de skjulte lagene

For hvert skjult lag $l$ er prosedyren den samme. Gitt $da^l$ :

Beregn den deriverte av tapet med hensyn til preaktiveringene;
Beregn gradientene for vektene og biasene;
Beregn $da^{l-1}$ for å propagere den deriverte bakover.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Denne prosessen gjentas for hvert foregående lag, trinn for trinn, til input-laget er nådd.

Oppdatering av vekter og bias

Etter å ha beregnet gradientene for alle lag, oppdateres vektene og bias ved hjelp av gradient descent-algoritmen:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Her representerer $\alpha$ læringsraten, som styrer hvor mye parameterne justeres i hvert treningssteg.

Her er $\alpha$ læringsraten, en hyperparameter som bestemmer størrelsen på justeringen som brukes på vektene og bias i hvert oppdateringssteg.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 7