Impara Come Funziona una RNN? | Introduzione alle RNN

Definizione

Le reti neurali ricorrenti (RNN) sono progettate per gestire dati sequenziali mantenendo le informazioni degli input precedenti nei loro stati interni. Questo le rende ideali per attività come la modellazione del linguaggio e la previsione di sequenze.

Elaborazione sequenziale: l'RNN elabora i dati passo dopo passo, tenendo traccia di ciò che è già stato elaborato;
Completamento di frasi: data la frase incompleta "My favourite dish is sushi. So, my favourite cuisine is _____." l'RNN elabora le parole una alla volta. Dopo aver visto "sushi", prevede la parola successiva come "Japanese" in base al contesto precedente;
Memoria nelle RNN: a ogni passo, l'RNN aggiorna il proprio stato interno (memoria) con nuove informazioni, garantendo la conservazione del contesto per i passi futuri;
Addestramento dell'RNN: le RNN vengono addestrate tramite la retropropagazione nel tempo (BPTT), in cui gli errori vengono propagati all'indietro attraverso ogni passo temporale per regolare i pesi e migliorare le previsioni.

Propagazione in avanti

Durante la propagazione in avanti, la RNN elabora i dati di input passo dopo passo:

Input al passo temporale $t$ : la rete riceve un input $x_t$ a ogni passo temporale;
Aggiornamento dello stato nascosto: lo stato nascosto corrente $h_t$ viene aggiornato in base allo stato nascosto precedente $h_{t-1}$ e all'input corrente $x_t$ utilizzando la seguente formula:
ht=f(W⋅[ht−1,xt]+b)
- Dove:
  - $W$ è la matrice dei pesi;
  - $b$ è il vettore di bias;
  - $f$ è la funzione di attivazione.
Generazione dell'output: l'output $y_t$ viene generato in base allo stato nascosto corrente $h_t$ utilizzando la formula:

$y_{t} = g (V \cdot h_{t} + c)$
- Dove:
  - $V$ è la matrice dei pesi di output;
  - $c$ è il bias di output;
  - $g$ è la funzione di attivazione utilizzata nello strato di output.

Processo di Backpropagation

La backpropagation nelle RNN è fondamentale per aggiornare i pesi e migliorare il modello. Il processo viene modificato per tenere conto della natura sequenziale delle RNN tramite la backpropagation through time (BPTT):

Calcolo dell'errore: il primo passo nella BPTT è calcolare l'errore a ogni passo temporale. Questo errore è tipicamente la differenza tra l'output previsto e il target reale;
Calcolo del gradiente: nelle Reti Neurali Ricorrenti, i gradienti della funzione di perdita vengono calcolati differenziando l'errore rispetto ai parametri della rete e propagati all'indietro nel tempo dall'ultimo al primo passo, il che può portare a gradienti che svaniscono o esplodono, in particolare in sequenze lunghe;
Aggiornamento dei pesi: una volta calcolati i gradienti, i pesi vengono aggiornati utilizzando una tecnica di ottimizzazione come la stochastic gradient descent (SGD). I pesi vengono modificati in modo tale da minimizzare l'errore nelle iterazioni future. La formula per l'aggiornamento dei pesi è:

$W : = W - η \frac{\partial Loss}{\partial W}$
- Dove:
  - $\eta$ è il tasso di apprendimento;
  - $\frac{\partial Loss}{\partial W}$ è il gradiente della funzione di perdita rispetto alla matrice dei pesi.

In sintesi, le RNN sono potenti perché possono memorizzare e utilizzare informazioni passate, rendendole adatte a compiti che coinvolgono sequenze.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 2

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4.55

Scorri per mostrare il menu