Lære Hvordan RNN Fungerer? | Introduksjon til RNN-er

Definisjon

Rekurrente nevrale nettverk (RNN-er) er utviklet for å håndtere sekvensielle data ved å beholde informasjon fra tidligere input i sine interne tilstander. Dette gjør dem ideelle for oppgaver som språkmodellering og sekvensprediksjon.

Sekvensiell prosessering: RNN behandler data steg for steg, og holder oversikt over hva som har kommet tidligere;
Setningsfullføring: gitt den ufullstendige setningen "My favourite dish is sushi. So, my favourite cuisine is _____." behandler RNN ordene ett etter ett. Etter å ha sett "sushi", forutsier den neste ord som "Japanese" basert på tidligere kontekst;
Minne i RNN-er: ved hvert steg oppdaterer RNN sin interne tilstand (minne) med ny informasjon, slik at den beholder kontekst for fremtidige steg;
Trening av RNN: RNN-er trenes ved hjelp av tilbakepropagering gjennom tid (BPTT), der feil sendes bakover gjennom hvert tidssteg for å justere vekter for bedre prediksjoner.

Fremoverpropagasjon

Under fremoverpropagasjon behandler RNN inngangsdataene steg for steg:

Inndata ved tidsskritt $t$ : nettverket mottar en inndata $x_t$ ved hvert tidsskritt;
Oppdatering av skjult tilstand: den nåværende skjulte tilstanden $h_t$ oppdateres basert på forrige skjulte tilstand $h_{t-1}$ og nåværende inndata $x_t$ ved å bruke følgende formel:
ht=f(W⋅[ht−1,xt]+b)
- Hvor:
  - $W$ er vektmatrisen;
  - $b$ er bias-vektoren;
  - $f$ er aktiveringsfunksjonen.
Generering av utdata: utdata $y_t$ genereres basert på den nåværende skjulte tilstanden $h_t$ ved å bruke formelen:

$y_{t} = g (V \cdot h_{t} + c)$
- Hvor:
  - $V$ er utdata-vektmatrisen;
  - $c$ er utdata-bias;
  - $g$ er aktiveringsfunksjonen brukt i utdata-laget.

Tilbakepropagasjon

Tilbakepropagasjon i RNN-er er avgjørende for å oppdatere vektene og forbedre modellen. Prosessen er tilpasset for å ta hensyn til den sekvensielle naturen til RNN-er gjennom tilbakepropagasjon gjennom tid (BPTT):

Feilberegning: det første steget i BPTT er å beregne feilen ved hvert tidsskritt. Denne feilen er vanligvis forskjellen mellom den predikerte utdataen og det faktiske målet;
Gradientberegning: i rekurrente nevrale nettverk beregnes gradientene til tapsfunksjonen ved å derivere feilen med hensyn til nettverksparametrene og propagere bakover i tid fra siste til første steg, noe som kan føre til forsvinnende eller eksploderende gradienter, spesielt i lange sekvenser;
Vektoppdatering: når gradientene er beregnet, oppdateres vektene ved hjelp av en optimaliseringsteknikk som stokastisk gradientnedstigning (SGD). Vektene justeres slik at feilen minimeres i fremtidige iterasjoner. Formelen for å oppdatere vektene er:

$W : = W - η \frac{\partial Loss}{\partial W}$
- Hvor:
  - $\eta$ er læringsraten;
  - $\frac{\partial Loss}{\partial W}$ er gradienten til tapsfunksjonen med hensyn til vektmatrisen.

Oppsummert er RNN-er kraftige fordi de kan huske og bruke tidligere informasjon, noe som gjør dem egnet for oppgaver som involverer sekvenser.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 2

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4.55

Sveip for å vise menyen