Summary  
This chapter explains how recurrent neural networks maintain and update a hidden state across time steps during forward propagation and how to train them using backpropagation through time to adjust weight matrices for better sequential predictions.

General domain of usage  
Sequence modeling (e.g., natural language processing)

Rekursive neurale netværk (**RNN'er**) er designet til at håndtere **sekventielle data** ved at bevare information fra tidligere input i deres **interne tilstande**. Dette gør dem ideelle til opgaver som **sproglig modellering** og **sekvensforudsigelse**.




Definition

- **Sekventiel behandling**: RNN behandler data **trin for trin** og holder styr på, hvad der er kommet før;  
- **Sætningsfuldførelse**: givet den ufuldstændige sætning `"My favourite dish is sushi. So, my favourite cuisine is _____."` behandler RNN ordene én ad gangen. Efter at have set `"sushi"`, forudsiger den det næste ord som `"Japanese"` baseret på tidligere **kontekst**;  
- **Hukommelse i RNN'er**: ved hvert trin opdaterer RNN sin **interne tilstand** (**hukommelse**) med ny information, hvilket sikrer, at den bevarer konteksten til **fremtidige trin**;  
- **Træning af RNN**: RNN'er trænes ved hjælp af **backpropagation gennem tid** (**BPTT**), hvor fejl føres baglæns gennem hvert tidssteg for at justere **vægte** for bedre forudsigelser.  



#### Fremadrettet Propagering

Under fremadrettet propagering behandler RNN inputdata trin for trin:

1. **Input ved tidssteg** $$t$$: netværket modtager et input $$x_t$$ ved hvert tidssteg;
2. **Opdatering af skjult tilstand**: den aktuelle skjulte tilstand $$h_t$$ opdateres baseret på den forrige skjulte tilstand $$h_{t-1}$$ og det aktuelle input $$x_t$$ ved hjælp af følgende formel:
$$
   h_t = f \left( W \cdot \left[ h_{t-1},x_t \right] + b \right)
$$
   - Hvor:
     - $$W$$ er vægtmatricen;
     - $$b$$ er biasvektoren;
     - $$f$$ er aktiveringsfunktionen.

3. **Generering af output**: outputtet $$y_t$$ genereres baseret på den aktuelle skjulte tilstand $$h_t$$ ved hjælp af formlen:
$$
y_t = g(V \cdot h_t + c)
$$
   - Hvor:
     - $$V$$ er outputvægtmatricen;
     - $$c$$ er outputbias;
     - $$g$$ er aktiveringsfunktionen anvendt i outputlaget.



#### Tilbagepropageringsproces

Tilbagepropagering i RNN'er er afgørende for at opdatere vægte og forbedre modellen. Processen tilpasses for at tage højde for den sekventielle natur af RNN'er gennem **tilbagepropagering gennem tid (BPTT)**:

1. **Fejlberegning**: det første trin i BPTT er at beregne fejlen ved hvert tidssteg. Denne fejl er typisk forskellen mellem det forudsagte output og det faktiske mål;
2. **Gradientberegning**: i rekursive neurale netværk beregnes gradienterne af tabfunktionen ved at differentiere fejlen med hensyn til netværksparametrene og propagere bagud gennem tid fra det sidste til det første trin, hvilket kan føre til forsvindende eller eksploderende gradienter, især i lange sekvenser;
3. **Opdatering af vægte**: når gradienterne er beregnet, opdateres vægtene ved hjælp af en optimeringsteknik som **stokastisk gradientnedstigning (SGD)**. Vægtene justeres således, at fejlen minimeres i fremtidige iterationer. Formlen for opdatering af vægte er:
$$
   W := W - \eta \frac{\partial \text{Loss}}{\partial W}
$$
   - Hvor:
     - $$\eta$$ er indlæringsraten;
     - $$\frac{\partial \text{Loss}}{\partial W}$$ er gradienten af tabfunktionen med hensyn til vægtmatricen.

Sammenfattende er RNN'er kraftfulde, fordi de kan **huske** og udnytte **tidligere information**, hvilket gør dem velegnede til opgaver, der involverer **sekvenser**.

Hvad er funktionen af funktionen 
$$g$$ i outputligningen $$y_t = g(V \cdot h_t+ c)$$

Fokus udelukkende på rekursive neurale netværk (RNN'er) og deres anvendelse til sekvensgenerering. Dette avancerede modul dækker den grundlæggende teori om RNN'er samt praktiske tilgange til modellering af sekventielle data og forbereder dig på praktisk arbejde med LSTM- og GRU-netværk i Python.

Hvordan Fungerer RNN?

Fremadrettet Propagering

Tilbagepropageringsproces