Oppiskele Taaksepäin Suuntautuva Eteneminen

Pyyhkäise näyttääksesi valikon

Takaisinlevitys eli backpropagation on prosessi, jossa määritetään, miten häviöfunktio muuttuu suhteessa jokaiseen neuroverkon parametriin. Tavoitteena on säätää näitä parametreja siten, että kokonaishäviö pienenee.

Tämä prosessi perustuu gradienttien laskentaan käyttäen gradienttimenetelmää (gradient descent), jossa hyödynnetään häviön derivaattoja suhteessa jokaisen kerroksen pre-aktivaatioarvoihin (raaka-arvot ennen aktivointifunktion soveltamista) ja propagoi ne taaksepäin verkossa.

Koska jokainen kerros vaikuttaa lopulliseen ennusteeseen, gradientit lasketaan vaiheittain:

Suoritetaan eteenpäinlevitys (forward propagation) tulosten saamiseksi;
Lasketaan häviön derivaatta suhteessa ulostulon pre-aktivaatioon;
Propagoidaan tämä derivaatta taaksepäin kerrosten läpi käyttäen ketjusääntöä;
Lasketaan ja käytetään gradientteja painojen ja biasien päivittämiseen koulutuksen aikana.

Huomio

Gradientit kuvaavat funktion muutosnopeutta suhteessa sen syötteisiin, eli ne ovat derivaattoja. Ne osoittavat, kuinka paljon pienet muutokset painoissa, biaseissa tai aktivaatioissa vaikuttavat häviöfunktioon, ohjaten mallin oppimisprosessia gradienttimenetelmän avulla.

Notaatio

Selkeyden vuoksi käytetään seuraavaa notaatiota:

$W^l$ on kerroksen $l$ painomatriisi;
$b^l$ on kerroksen $l$ bias-vektori;
$z^l$ on kerroksen $l$ pre-aktivaatioiden vektori;
$a^l$ on kerroksen $l$ aktivaatioiden vektori;

Kun asetetaan $a^0$ arvoon $x$ (syötteet), eteenpäinlevitys perceptronissa, jossa on n kerrosta, voidaan kuvata seuraavalla operaatioketjulla:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Takaisinkytkennän matemaattista kuvausta varten otetaan käyttöön seuraavat merkinnät:

$da^l$ : tappion derivaatta suhteessa kerroksen $l$ aktivaatioihin;
$dz^l$ : tappion derivaatta suhteessa kerroksen $l$ pre-aktivaatioihin (ennen aktivointifunktion soveltamista);
$dW^l$ : tappion derivaatta suhteessa kerroksen $l$ painoihin;
$db^l$ : tappion derivaatta suhteessa kerroksen $l$ bias-termeihin.

Gradienttien laskeminen ulostulokerrokselle

Viimeisessä kerroksessa $n$ ensimmäinen vaihe on laskea tappion gradientti suhteessa ulostulokerroksen aktivaatioihin, merkittynä $da^n$ .

Tämän jälkeen, käyttäen ketjusääntöä, tappion gradientti suhteessa ulostulokerroksen pre-aktivaatioihin lasketaan seuraavasti:

dz^n = da^n \odot f'^n(z^n)

Tässä $f'^n(z^n)$ tarkoittaa kerroksen $n$ aktivointifunktion derivaattaa, ja symboli $\odot$ tarkoittaa alkiokohtaista kertolaskua.

Huomio

Symboli $\odot$ tarkoittaa alkiokohtaista kertolaskua, eli jokainen yhden vektorin alkio kerrotaan toisen vektorin vastaavalla alkiolla. Sen sijaan symboli $\cdot$ edustaa pistetuloa, jota käytetään tavanomaisessa matriisi- tai vektorikertolaskussa. Termi $f'^n$ viittaa aktivointifunktion derivaattaan ulostulokerroksessa.

Tämä arvo ilmaisee, kuinka herkkä häviöfunktio on ulostulokerroksen esiaktivointiarvojen muutoksille.

Kun $dz^n$ on laskettu, seuraava vaihe on laskea gradientit painoille ja siirtotermeille:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Nämä gradientit kuvaavat, kuinka paljon kutakin painoa ja siirtotermiä ulostulokerroksessa tulisi säätää häviön pienentämiseksi.

Tässä $(a^{n-1})^T$ on edellisen kerroksen transponoitu aktivointivektori. Jos alkuperäisen vektorin muoto on $n_{\text{neurons}} \times 1$ , sen transpoosiolla on muoto $1 \times n_{\text{neurons}}$ .

Takaisinlevityksen jatkamiseksi lasketaan derivaatta häviöstä suhteessa edellisen kerroksen aktivointeihin seuraavasti:

da^{n-1} = (W^n)^T \cdot dz^n

Tämä lauseke mahdollistaa virhesignaalin siirtämisen taaksepäin verkossa, mikä mahdollistaa aiempien kerrosten säätämisen koulutuksen aikana.

Gradienttien levittäminen piilokerroksiin

Jokaiselle piilokerrokselle $l$ menettely on sama. Kun $da^l$ on annettu:

Laske derivaatta häviöstä suhteessa esiaktivointeihin;
Laske gradientit painoille ja siirtotermeille;
Laske $da^{l-1}$ derivaatan levittämiseksi taaksepäin.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Tätä prosessia toistetaan jokaiselle edeltävälle kerrokselle vaihe vaiheelta, kunnes saavutetaan syötekerros.

Painojen ja biasien päivittäminen

Kun gradientit on laskettu kaikille kerroksille, painot ja biasit päivitetään käyttämällä gradienttivähenemä-algoritmia:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Tässä $\alpha$ tarkoittaa oppimisnopeutta, joka määrittää, kuinka paljon parametreja säädetään jokaisella koulutusaskeleella.

Tässä $\alpha$ on oppimisnopeus, hyperparametri, joka määrittää painoihin ja biaseihin päivitysvaiheessa sovellettavan muutoksen suuruuden.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 14

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 14