Summary  
This chapter covers recurrent neural networks as a programming concept, detailing how to implement sequential stateful computation by updating a hidden state at each time step, generating outputs, and training shared weights via backpropagation through time.  

General domain of usage  
Natural language processing

Rekursive neurale netværk (**RNN'er**) er designet til at håndtere **sekventielle data** ved at bevare information fra tidligere input i deres **interne tilstande**. Dette gør dem ideelle til opgaver som **sproglig modellering** og **sekvensforudsigelse**.




Definition

- **Sekventiel behandling**: RNN behandler data **trin for trin** og holder styr på, hvad der er kommet før;  
- **Sætningsfuldførelse**: givet den ufuldstændige sætning `"My favourite dish is sushi. So, my favourite cuisine is _____."` behandler RNN ordene én ad gangen. Efter at have set `"sushi"`, forudsiger den det næste ord som `"Japanese"` baseret på tidligere **kontekst**;  
- **Hukommelse i RNN'er**: ved hvert trin opdaterer RNN sin **interne tilstand** (**hukommelse**) med ny information, hvilket sikrer, at den bevarer konteksten til **fremtidige trin**;  
- **Træning af RNN**: RNN'er trænes ved hjælp af **backpropagation through time** (**BPTT**), hvor fejl sendes baglæns gennem hvert tidssteg for at justere **vægte** for bedre forudsigelser.  



#### Fremadrettet Propagering

Under fremadrettet propagering behandler RNN inputdata trin for trin:

1. **Input ved tidssteg** $$t$$: netværket modtager et input $$x_t$$ ved hvert tidssteg;

2. **Opdatering af skjult tilstand**: den nuværende skjulte tilstand $$h_t$$ opdateres baseret på den forrige skjulte tilstand $$h_{t-1}$$ og det nuværende input $$x_t$$ ved hjælp af følgende formel:

   <div style="align=center"><math display="block" class="tml-display" style="display:block math;"><mrow><msub><mi>h</mi><mi>t</mi></msub><mo>=</mo><mi>f</mi><mrow><mo fence="true" form="prefix">(</mo><mi>W</mi><mo>⋅</mo><mrow><mo fence="true" form="prefix">[</mo><mtable><mtr><mtd style="padding-left:0em;padding-right:0em;"><mrow><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo separator="true">,</mo><msub><mi>x</mi><mi>t</mi></msub></mrow></mtd></mtr></mtable><mo fence="true" form="postfix">]</mo></mrow><mo>+</mo><mi>b</mi><mo fence="true" form="postfix">)</mo></mrow></mrow></math><div>

   - Hvor:
     - $$W$$ er vægtmatricen;
     - $$b$$ er biasvektoren;
     - $$f$$ er aktiveringsfunktionen.

3. **Outputgenerering**: outputtet $$y_t$$ genereres baseret på den nuværende skjulte tilstand $$h_t$$ ved hjælp af formlen:

   <math display="block" class="tml-display" style="display:block math;"><mrow><msub><mi>y</mi><mi>t</mi></msub><mo>=</mo><mi>g</mi><mo form="prefix" stretchy="false">(</mo><mi>V</mi><mo>⋅</mo><msub><mi>h</mi><mi>t</mi></msub><mo>+</mo><mi>c</mi><mo form="postfix" stretchy="false">)</mo></mrow></math>

   - Hvor:
     - $$V$$ er outputvægtmatricen;
     - $$c$$ er outputbias;
     - $$g$$ er aktiveringsfunktionen brugt i outputlaget.



#### Tilbagepropageringsproces

Tilbagepropagering i RNN'er er afgørende for at opdatere vægtene og forbedre modellen. Processen er tilpasset for at tage højde for den sekventielle karakter af RNN'er gennem **tilbagepropagering gennem tid (BPTT)**:

1. **Fejlberegning**: det første trin i BPTT er at beregne fejlen ved hvert tidssteg. Denne fejl er typisk forskellen mellem det forudsagte output og det faktiske mål;

2. **Gradientberegning**: i rekurrente neurale netværk beregnes gradienterne af tabfunktionen ved at differentiere fejlen med hensyn til netværkets parametre og propageres bagud gennem tiden fra det sidste til det første trin, hvilket kan føre til forsvindende eller eksploderende gradienter, især i lange sekvenser;

3. **Vægtopdatering**: når gradienterne er beregnet, opdateres vægtene ved hjælp af en optimeringsteknik som **stokastisk gradientnedstigning (SGD)**. Vægtene justeres således, at fejlen minimeres i fremtidige iterationer. Formlen for opdatering af vægte er:

   <math display="block" class="tml-display" style="display:block math;"><mrow><mi>W</mi><mo lspace="0.2222em" rspace="0em">:</mo><mo lspace="0em">=</mo><mi>W</mi><mo>−</mo><mi>η</mi><mfrac><mrow><mi>∂</mi><mtext>Loss</mtext></mrow><mrow><mi>∂</mi><mi>W</mi></mrow></mfrac></mrow></math>

   - Hvor:
     - $$\eta$$ er indlæringsraten;
     - <math><mfrac><mrow><mi>∂</mi><mtext>Loss</mtext></mrow><mrow><mi>∂</mi><mi>W</mi></mrow></mfrac></math> er gradienten af tabfunktionen med hensyn til vægtmatricen.

Sammenfattende er RNN'er kraftfulde, fordi de kan **huske** og udnytte **tidligere information**, hvilket gør dem velegnede til opgaver, der involverer **sekvenser**.

Hvad er funktionen af funktionen 
$$g$$ i udgangsligningen $$y_t = g(V \cdot h_t+ c)$$

Behersk rekurrente neurale netværk og deres avancerede varianter som LSTM og GRU ved hjælp af PyTorch. Opnå praktisk erfaring med behandling af sekventielle data til anvendelser i praksis. Anvend disse kraftfulde modeller til at løse virkelige udfordringer inden for tidsserieprognoser og forskellige opgaver i naturlig sprogbehandling.

Dækker begrænsningerne ved traditionelle neurale netværk for sekventielle data og introducerer grundlæggende principper for Recurrent Neural Networks. Forklarer RNN-arkitektur, typer og trinvis implementering gennem grundlæggende eksempler og en kodningsudfordring.

Undersøger almindelige træningsudfordringer såsom forsvindende og eksploderende gradienter. Introducerer avancerede RNN-varianter, herunder LSTM og GRU, med fokus på deres interne mekanismer og anvendelsesområder samt praktiske implementeringseksempler for hver.

Fokuserer på behandling og prognose af tidsseriedata ved hjælp af RNN-baserede modeller. Omfatter dataindlæsning, forbehandlingsteknikker, modeltræning og præstationsvurdering med vægt på sammenligning af LSTM- og GRU-arkitekturer.

Demonstrerer anvendelsen af RNN'er til tekstklassificeringsopgaver. Dækker centrale NLP-begreber, tekstkodningsmetoder, trin til dataklargøring og opbygning af en LSTM-baseret model til sentimentforudsigelse.

Hvordan Fungerer RNN?

Fremadrettet Propagering

Tilbagepropageringsproces