Summary  
This chapter explains how recurrent neural networks maintain and update a hidden state across time steps during forward propagation and how to train them using backpropagation through time to adjust weight matrices for better sequential predictions.

General domain of usage  
Sequence modeling (e.g., natural language processing)

Rekurrenta neurala nätverk (**RNN**) är utformade för att hantera **sekventiell data** genom att behålla information från tidigare indata i sina **interna tillstånd**. Detta gör dem idealiska för uppgifter som **språkmodellering** och **sekvensprediktion**.




Definition

- **Sekventiell bearbetning**: RNN bearbetar data **steg för steg** och håller reda på vad som har kommit tidigare;  
- **Meningskomplettering**: givet den ofullständiga meningen `"My favourite dish is sushi. So, my favourite cuisine is _____."` bearbetar RNN orden ett i taget. Efter att ha sett `"sushi"` förutspår den nästa ord som `"Japanese"` baserat på tidigare **kontext**;  
- **Minne i RNN**: vid varje steg uppdaterar RNN sitt **interna tillstånd** (**minne**) med ny information, vilket säkerställer att kontexten bevaras för **framtida steg**;  
- **Träning av RNN**: RNN tränas med **backpropagation through time** (**BPTT**), där fel skickas bakåt genom varje tidssteg för att justera **vikter** för bättre prediktioner.  



#### Framåtriktad Propagering

Under framåtriktad propagering bearbetar RNN indata steg för steg:

1. **Indata vid tidssteg** $$t$$: nätverket tar emot en indata $$x_t$$ vid varje tidssteg;
2. **Uppdatering av dolt tillstånd**: det aktuella dolda tillståndet $$h_t$$ uppdateras baserat på föregående dolda tillstånd $$h_{t-1}$$ och aktuell indata $$x_t$$ enligt följande formel:
$$
   h_t = f \left( W \cdot \left[ h_{t-1},x_t \right] + b \right)
$$
   - Där:
     - $$W$$ är viktmatrisen;
     - $$b$$ är biasvektorn;
     - $$f$$ är aktiveringsfunktionen.

3. **Generering av utdata**: utdatan $$y_t$$ genereras baserat på det aktuella dolda tillståndet $$h_t$$ enligt formeln:
$$
y_t = g(V \cdot h_t + c)
$$
   - Där:
     - $$V$$ är utdataviktsmatrisen;
     - $$c$$ är utdatas bias;
     - $$g$$ är aktiveringsfunktionen som används i utdatalagret.



#### Backpropageringsprocess

Backpropagering i RNN är avgörande för att uppdatera vikterna och förbättra modellen. Processen anpassas för att ta hänsyn till RNN:ers sekventiella natur genom **backpropagering genom tid (BPTT)**:

1. **Felkalkylering**: det första steget i BPTT är att beräkna felet vid varje tidssteg. Detta fel är vanligtvis skillnaden mellan det förutsagda resultatet och det faktiska målet;
2. **Gradientberäkning**: i rekurrenta neurala nätverk beräknas gradienterna av förlustfunktionen genom att derivera felet med avseende på nätverksparametrarna och propageras bakåt genom tiden från sista till första steget, vilket kan leda till försvinnande eller exploderande gradienter, särskilt i långa sekvenser;
3. **Viktuppdatering**: när gradienterna har beräknats uppdateras vikterna med en optimeringsteknik såsom **stokastisk gradientnedstigning (SGD)**. Vikterna justeras så att felet minimeras i framtida iterationer. Formeln för att uppdatera vikterna är:
$$
   W := W - \eta \frac{\partial \text{Loss}}{\partial W}
$$
   - Där:
     - $$\eta$$ är inlärningshastigheten;
     - $$\frac{\partial \text{Loss}}{\partial W}$$ är gradienten av förlustfunktionen med avseende på viktmatrisen.

Sammanfattningsvis är RNN kraftfulla eftersom de kan **komma ihåg** och använda **tidigare information**, vilket gör dem lämpliga för uppgifter som involverar **sekvenser**.

Vad är funktionen för funktionen 
$$g$$ i utdataekvationen $$y_t = g(V \cdot h_t+ c)$$

Fokuserar uteslutande på rekurrenta neurala nätverk (RNN) och deras tillämpning för sekvensgenerering. Denna avancerade modul täcker den grundläggande teorin om RNN samt praktiska metoder för modellering av sekventiell data, och förbereder dig för praktiskt arbete med LSTM- och GRU-nätverk i Python.

Hur Fungerar RNN?

Framåtriktad Propagering

Backpropageringsprocess