Generalizzazione dell'Apprendimento TD
Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:
- TD(0): utilizza il ritorno a un passo;
- Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.
Ma cosa succede se desideriamo qualcosa di intermedio? Un metodo che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?
Qui entrano in gioco l'apprendimento TD a n passi e TD(λ) — metodi che unificano e generalizzano i concetti visti finora.
n-Passi TD Learning
L'idea alla base dell'apprendimento TD a n passi è semplice: invece di utilizzare solo il passo successivo o l'intero episodio, si utilizzano i prossimi n passi, quindi si effettua il bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Questo consente un compromesso:
- Quando n=1: equivale a TD(0);
- Quando n=∞: diventa Monte Carlo.
Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) è un'idea ingegnosa che si basa sull'apprendimento TD a n passi: invece di scegliere un valore fisso di n, si combinano tutti i ritorni a n passi insieme:
Lt=(1−λ)n=0∑∞λn−1Gt(n)dove λ∈[0,1] controlla la ponderazione:
- Se λ=0: solo il ritorno a un passo → TD(0);
- Se λ=1: ritorno completo → Monte Carlo;
- Valori intermedi mescolano ritorni a più passi.
Quindi λ funge da regolatore del compromesso bias-varianza:
- Basso λ: più bias, meno varianza;
- Alto λ: meno bias, più varianza.
Lt può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):
V(St)←V(St)+α(Lt−V(St))Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?
What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?
Can you provide an example to illustrate how $$n$$-step TD learning works?
Awesome!
Completion rate improved to 2.7
Generalizzazione dell'Apprendimento TD
Scorri per mostrare il menu
Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:
- TD(0): utilizza il ritorno a un passo;
- Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.
Ma cosa succede se desideriamo qualcosa di intermedio? Un metodo che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?
Qui entrano in gioco l'apprendimento TD a n passi e TD(λ) — metodi che unificano e generalizzano i concetti visti finora.
n-Passi TD Learning
L'idea alla base dell'apprendimento TD a n passi è semplice: invece di utilizzare solo il passo successivo o l'intero episodio, si utilizzano i prossimi n passi, quindi si effettua il bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Questo consente un compromesso:
- Quando n=1: equivale a TD(0);
- Quando n=∞: diventa Monte Carlo.
Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) è un'idea ingegnosa che si basa sull'apprendimento TD a n passi: invece di scegliere un valore fisso di n, si combinano tutti i ritorni a n passi insieme:
Lt=(1−λ)n=0∑∞λn−1Gt(n)dove λ∈[0,1] controlla la ponderazione:
- Se λ=0: solo il ritorno a un passo → TD(0);
- Se λ=1: ritorno completo → Monte Carlo;
- Valori intermedi mescolano ritorni a più passi.
Quindi λ funge da regolatore del compromesso bias-varianza:
- Basso λ: più bias, meno varianza;
- Alto λ: meno bias, più varianza.
Lt può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):
V(St)←V(St)+α(Lt−V(St))Grazie per i tuoi commenti!