Lära Bakåtriktad Spridning | Neuronnätverk Från Grunden

Bakåtriktad propagiering, eller backpropagation, är processen att bestämma hur förlustfunktionen förändras med avseende på varje parameter i det neurala nätverket. Målet är att justera dessa parametrar på ett sätt som minskar den totala förlusten.

Denna process bygger på gradientnedstigning-algoritmen, som använder derivator av förlusten med avseende på varje lags pre-aktiveringsvärden (de råa utdata innan aktiveringsfunktionen tillämpas) och propagerar dem bakåt genom nätverket.

Eftersom varje lager bidrar till den slutliga prediktionen beräknas gradienterna steg för steg:

Utför framåtriktad propagiering för att erhålla utdata;
Beräkna derivatan av förlusten med avseende på utdata pre-aktivering;
Propagera denna derivata bakåt genom lagren med hjälp av kedjeregeln;
Beräkna och använd gradienterna för vikter och biaser för att uppdatera dem under träningen.

Notering

Gradienter representerar ändringshastigheten för en funktion med avseende på dess indata, vilket innebär att de är dess derivator. De visar hur mycket en liten förändring i vikter, biaser eller aktiveringar påverkar förlustfunktionen, och vägleder modellens inlärningsprocess genom gradientnedstigning.

Notation

För att göra förklaringen tydligare används följande notation:

$W^l$ är viktmatrisen för lager $l$ ;
$b^l$ är vektorn av biaser för lager $l$ ;
$z^l$ är vektorn av pre-aktiveringar för lager $l$ ;
$a^l$ är vektorn av aktiveringar för lager $l$ ;

Genom att sätta $a^0$ till $x$ (indata), kan framåtriktad propagiering i en perceptron med n lager beskrivas som följande sekvens av operationer:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

För att beskriva backpropagation matematiskt introduceras följande notationer:

$da^l$ : derivatan av förlusten med avseende på aktiveringar i lager $l$ ;
$dz^l$ : derivatan av förlusten med avseende på pre-aktiveringar i lager $l$ (innan aktiveringsfunktionen appliceras);
$dW^l$ : derivatan av förlusten med avseende på vikterna i lager $l$ ;
$db^l$ : derivatan av förlusten med avseende på bias i lager $l$ .

Beräkning av gradienter för utgångslagret

I det sista lagret $n$ är det första steget att beräkna gradienten av förlusten med avseende på aktiveringar i utgångslagret, betecknat som $da^n$ .

Därefter, med hjälp av kedjeregeln, beräknas gradienten av förlusten med avseende på pre-aktiveringar i utgångslagret som:

dz^n = da^n \odot f'^n(z^n)

Här representerar $f'^n(z^n)$ derivatan av aktiveringsfunktionen i lager $n$ , och symbolen $\odot$ betecknar elementvis multiplikation.

Notering

Symbolen $\odot$ betecknar elementvis multiplikation, vilket innebär att varje element i en vektor multipliceras med motsvarande element i en annan vektor. Däremot representerar symbolen $\cdot$ skalärprodukt, som används för vanlig matris- eller vektormultiplikation. Termen $f'^n$ avser derivatan av aktiveringsfunktionen i utgångslagret.

Detta värde indikerar hur känslig förlustfunktionen är för förändringar i pre-aktiveringsvärdena i utgångslagret.

Efter att ha beräknat $dz^n$ är nästa steg att räkna ut gradienterna för vikterna och biaserna:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Dessa gradienter beskriver hur mycket varje vikt och bias i utgångslagret bör justeras för att minska förlusten.

Här är $(a^{n-1})^T$ den transponerade aktiveringsvektorn från föregående lager. Om den ursprungliga vektorn har formen $n_{\text{neurons}} \times 1$ , har dess transponat formen $1 \times n_{\text{neurons}}$ .

För att fortsätta bakåtspridningen beräknas derivatan av förlusten med avseende på aktiveringarna i föregående lager som:

da^{n-1} = (W^n)^T \cdot dz^n

Detta uttryck möjliggör att felssignalen kan föras bakåt genom nätverket, vilket möjliggör justering av tidigare lager under träningen.

Propagering av gradienter till de dolda lagren

För varje dolt lager $l$ är proceduren densamma. Givet $da^l$ :

Beräkna derivatan av förlusten med avseende på pre-aktiveringar;
Beräkna gradienterna för vikterna och biaserna;
Beräkna $da^{l-1}$ för att föra derivatan bakåt.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Denna process upprepas för varje föregående lager, steg för steg, tills inmatningslagret nås.

Uppdatering av vikter och bias

Efter att ha beräknat gradienterna för alla lager uppdateras vikterna och bias med hjälp av gradientnedstigning:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Här representerar $\alpha$ inlärningshastigheten, som styr hur mycket parametrarna justeras vid varje träningssteg.

Här är $\alpha$ inlärningshastigheten, en hyperparameter som avgör storleken på justeringen som tillämpas på vikter och bias vid varje uppdateringssteg.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 7

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4

Svep för att visa menyn

Eftersom varje lager bidrar till den slutliga prediktionen beräknas gradienterna steg för steg:

Utför framåtriktad propagiering för att erhålla utdata;
Beräkna derivatan av förlusten med avseende på utdata pre-aktivering;
Propagera denna derivata bakåt genom lagren med hjälp av kedjeregeln;
Beräkna och använd gradienterna för vikter och biaser för att uppdatera dem under träningen.

Notering

Notation

För att göra förklaringen tydligare används följande notation:

$W^l$ är viktmatrisen för lager $l$ ;
$b^l$ är vektorn av biaser för lager $l$ ;
$z^l$ är vektorn av pre-aktiveringar för lager $l$ ;
$a^l$ är vektorn av aktiveringar för lager $l$ ;

Genom att sätta $a^0$ till $x$ (indata), kan framåtriktad propagiering i en perceptron med n lager beskrivas som följande sekvens av operationer:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

För att beskriva backpropagation matematiskt introduceras följande notationer:

$da^l$ : derivatan av förlusten med avseende på aktiveringar i lager $l$ ;
$dz^l$ : derivatan av förlusten med avseende på pre-aktiveringar i lager $l$ (innan aktiveringsfunktionen appliceras);
$dW^l$ : derivatan av förlusten med avseende på vikterna i lager $l$ ;
$db^l$ : derivatan av förlusten med avseende på bias i lager $l$ .

Beräkning av gradienter för utgångslagret

I det sista lagret $n$ är det första steget att beräkna gradienten av förlusten med avseende på aktiveringar i utgångslagret, betecknat som $da^n$ .

Därefter, med hjälp av kedjeregeln, beräknas gradienten av förlusten med avseende på pre-aktiveringar i utgångslagret som:

dz^n = da^n \odot f'^n(z^n)

Här representerar $f'^n(z^n)$ derivatan av aktiveringsfunktionen i lager $n$ , och symbolen $\odot$ betecknar elementvis multiplikation.

Notering

Detta värde indikerar hur känslig förlustfunktionen är för förändringar i pre-aktiveringsvärdena i utgångslagret.

Efter att ha beräknat $dz^n$ är nästa steg att räkna ut gradienterna för vikterna och biaserna:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Dessa gradienter beskriver hur mycket varje vikt och bias i utgångslagret bör justeras för att minska förlusten.

För att fortsätta bakåtspridningen beräknas derivatan av förlusten med avseende på aktiveringarna i föregående lager som:

da^{n-1} = (W^n)^T \cdot dz^n

Detta uttryck möjliggör att felssignalen kan föras bakåt genom nätverket, vilket möjliggör justering av tidigare lager under träningen.

Propagering av gradienter till de dolda lagren

För varje dolt lager $l$ är proceduren densamma. Givet $da^l$ :

Beräkna derivatan av förlusten med avseende på pre-aktiveringar;
Beräkna gradienterna för vikterna och biaserna;
Beräkna $da^{l-1}$ för att föra derivatan bakåt.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Denna process upprepas för varje föregående lager, steg för steg, tills inmatningslagret nås.

Uppdatering av vikter och bias

Efter att ha beräknat gradienterna för alla lager uppdateras vikterna och bias med hjälp av gradientnedstigning:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Här representerar $\alpha$ inlärningshastigheten, som styr hur mycket parametrarna justeras vid varje träningssteg.

Här är $\alpha$ inlärningshastigheten, en hyperparameter som avgör storleken på justeringen som tillämpas på vikter och bias vid varje uppdateringssteg.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 7