Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Generalizzazione dell'Apprendimento TD
Finora abbiamo considerato due casi estremi di apprendimento dall'esperienza:
- TD(0): utilizza il ritorno a un passo;
- Monte Carlo: attende la fine dell'episodio per calcolare il ritorno.
Ma cosa succede se desideriamo qualcosa di intermedio? Un metodo che sfrutti più informazioni future rispetto a TD(0), ma che non richieda di attendere l'intero episodio come Monte Carlo?
Qui entrano in gioco l'apprendimento TD a passi e TD() — metodi che unificano e generalizzano i concetti visti finora.
-Passi TD Learning
L'idea alla base dell'apprendimento TD a passi è semplice: invece di utilizzare solo il passo successivo o l'intero episodio, si utilizzano i prossimi passi, quindi si effettua il bootstrap:
Questo consente un compromesso:
- Quando : equivale a TD(0);
- Quando : diventa Monte Carlo.
Questi ritorni possono quindi essere utilizzati per sostituire il target nella regola di aggiornamento di TD(0):
TD()
TD() è un'idea ingegnosa che si basa sull'apprendimento TD a passi: invece di scegliere un valore fisso di , si combinano tutti i ritorni a passi insieme:
dove controlla la ponderazione:
- Se : solo il ritorno a un passo TD(0);
- Se : ritorno completo Monte Carlo;
- Valori intermedi mescolano ritorni a più passi.
Quindi funge da regolatore del compromesso bias-varianza:
- Basso : più bias, meno varianza;
- Alto : meno bias, più varianza.
può quindi essere utilizzato come target di aggiornamento nella regola di aggiornamento TD(0):
Grazie per i tuoi commenti!