Generalizzazione dell'Apprendimento TD
Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:
- TD(0): utilizza il ritorno a un passo;
- Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.
Ma cosa succede se desideriamo qualcosa di intermedio? Un metodo che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?
Qui entrano in gioco l'apprendimento TD a n passi e TD(λ) — metodi che unificano e generalizzano i concetti visti finora.
n-Passi TD Learning
L'idea alla base dell'apprendimento TD a n passi è semplice: invece di utilizzare solo il passo successivo o l'intero episodio, si utilizzano i prossimi n passi, quindi si effettua il bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Questo consente un compromesso:
- Quando n=1: equivale a TD(0);
- Quando n=∞: diventa Monte Carlo.
Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) è un'idea ingegnosa che si basa sull'apprendimento TD a n passi: invece di scegliere un valore fisso di n, si combinano tutti i ritorni a n passi insieme:
Lt=(1−λ)n=0∑∞λn−1Gt(n)dove λ∈[0,1] controlla la ponderazione:
- Se λ=0: solo il ritorno a un passo → TD(0);
- Se λ=1: ritorno completo → Monte Carlo;
- Valori intermedi mescolano ritorni a più passi.
Quindi λ funge da regolatore del compromesso bias-varianza:
- Basso λ: più bias, meno varianza;
- Alto λ: meno bias, più varianza.
Lt può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):
V(St)←V(St)+α(Lt−V(St))Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Generalizzazione dell'Apprendimento TD
Scorri per mostrare il menu
Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:
- TD(0): utilizza il ritorno a un passo;
- Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.
Ma cosa succede se desideriamo qualcosa di intermedio? Un metodo che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?
Qui entrano in gioco l'apprendimento TD a n passi e TD(λ) — metodi che unificano e generalizzano i concetti visti finora.
n-Passi TD Learning
L'idea alla base dell'apprendimento TD a n passi è semplice: invece di utilizzare solo il passo successivo o l'intero episodio, si utilizzano i prossimi n passi, quindi si effettua il bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Questo consente un compromesso:
- Quando n=1: equivale a TD(0);
- Quando n=∞: diventa Monte Carlo.
Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) è un'idea ingegnosa che si basa sull'apprendimento TD a n passi: invece di scegliere un valore fisso di n, si combinano tutti i ritorni a n passi insieme:
Lt=(1−λ)n=0∑∞λn−1Gt(n)dove λ∈[0,1] controlla la ponderazione:
- Se λ=0: solo il ritorno a un passo → TD(0);
- Se λ=1: ritorno completo → Monte Carlo;
- Valori intermedi mescolano ritorni a più passi.
Quindi λ funge da regolatore del compromesso bias-varianza:
- Basso λ: più bias, meno varianza;
- Alto λ: meno bias, più varianza.
Lt può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):
V(St)←V(St)+α(Lt−V(St))Grazie per i tuoi commenti!