Impara Generalizzazione dell'Apprendimento TD | Apprendimento a Differenza Temporale

Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:

TD(0): utilizza il ritorno a un passo;
Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.

Ma cosa succede se desideriamo qualcosa a metà strada? Qualcosa che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?

Qui entrano in gioco l'apprendimento TD a $n$ passi e TD( $\lambda$ ) — metodi che unificano e generalizzano le idee viste finora.

$\Large n$ -Passi TD Learning

L'idea alla base dell'apprendimento TD a $n$ passi è semplice: invece di utilizzare solo il passo successivo o l'intero episodio, si utilizzano i prossimi $n$ passi, quindi si applica il bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Questo consente un compromesso:

Quando $n = 1$ : equivale a TD(0);
Quando $n = \infty$ : diventa Monte Carlo.

Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) è un'idea ingegnosa che si basa sull'apprendimento TD a $n$ passi: invece di scegliere un valore fisso di $n$ , si combinano tutti i ritorni a $n$ passi insieme:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

dove $\lambda \in [0, 1]$ controlla la ponderazione:

Se $\lambda = 0$ : solo ritorno a un passo $\to$ TD(0);
Se $\lambda = 1$ : ritorno completo $\to$ Monte Carlo;
Valori intermedi fondono ritorni a più passi.

Quindi $\lambda$ funge da regolatore del compromesso bias-varianza:

Basso $\lambda$ : più bias, meno varianza;
Alto $\lambda$ : meno bias, più varianza.

$L_t$ può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 5

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?

What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?

Can you provide an example to illustrate how n-step TD learning works?

Scorri per mostrare il menu

Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:

TD(0): utilizza il ritorno a un passo;
Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.

Ma cosa succede se desideriamo qualcosa a metà strada? Qualcosa che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?

Qui entrano in gioco l'apprendimento TD a $n$ passi e TD( $\lambda$ ) — metodi che unificano e generalizzano le idee viste finora.

$\Large n$ -Passi TD Learning

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Questo consente un compromesso:

Quando $n = 1$ : equivale a TD(0);
Quando $n = \infty$ : diventa Monte Carlo.

Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) è un'idea ingegnosa che si basa sull'apprendimento TD a $n$ passi: invece di scegliere un valore fisso di $n$ , si combinano tutti i ritorni a $n$ passi insieme:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

dove $\lambda \in [0, 1]$ controlla la ponderazione:

Se $\lambda = 0$ : solo ritorno a un passo $\to$ TD(0);
Se $\lambda = 1$ : ritorno completo $\to$ Monte Carlo;
Valori intermedi fondono ritorni a più passi.

Quindi $\lambda$ funge da regolatore del compromesso bias-varianza:

Basso $\lambda$ : più bias, meno varianza;
Alto $\lambda$ : meno bias, più varianza.

$L_t$ può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 5

Generalizzazione dell'Apprendimento TD

n\Large nn-Passi TD Learning

TD(λ\Large\lambdaλ)

Generalizzazione dell'Apprendimento TD

n\Large nn-Passi TD Learning

TD(λ\Large\lambdaλ)

$\Large n$ -Passi TD Learning

TD( $\Large\lambda$ )

$\Large n$ -Passi TD Learning

TD( $\Large\lambda$ )