Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
TD(0): Stima della Funzione di Valore
La versione più semplice dell'apprendimento TD è chiamata TD(0). Aggiorna il valore di uno stato in base alla ricompensa immediata e al valore stimato dello stato successivo. Si tratta di un metodo TD a un solo passo.
Regola di aggiornamento
Dato uno stato , una ricompensa e lo stato successivo , la regola di aggiornamento è la seguente:
dove
- è il tasso di apprendimento, o passo di aggiornamento;
- è l'errore TD.
Intuizione
La funzione di valore di stato può essere definita ed espansa come segue:
Questo fornisce la prima parte di — il ritorno sperimentato . La seconda parte di è il ritorno atteso . L'errore TD rappresenta quindi la discrepanza osservabile tra ciò che è effettivamente accaduto e ciò che si credeva sarebbe accaduto. La regola di aggiornamento corregge quindi la convinzione precedente a ogni passo, avvicinandola progressivamente alla realtà.
TD(0) vs Stima Monte Carlo
Sia TD(0) che la stima Monte Carlo utilizzano esperienze campionate per stimare la funzione di valore di stato per una politica . Sotto condizioni standard di convergenza, entrambi convergono al vero quando il numero di visite a ciascuno stato tende all'infinito. Tuttavia, nella pratica, si dispone solo di una quantità finita di dati e i due metodi differiscono significativamente sia nell'utilizzo di tali dati sia nella rapidità di apprendimento.
Compromesso Bias-Varianza
Da una prospettiva di compromesso bias-varianza:
La stima Monte Carlo attende la fine di un episodio e poi utilizza il ritorno completo per aggiornare i valori. Questo produce stime non distorte — i ritorni riflettono realmente la distribuzione sottostante — ma possono variare notevolmente, specialmente in compiti lunghi o altamente stocastici. L'alta varianza implica che siano necessari molti episodi per attenuare il rumore e ottenere stime di valore stabili.
TD(0) utilizza il bootstrap combinando ogni ricompensa a un passo con la stima attuale del valore dello stato successivo. Questo introduce bias — gli aggiornamenti iniziali si basano su stime imperfette — ma mantiene la varianza bassa, poiché ogni aggiornamento si basa su un piccolo errore incrementale. La varianza più bassa consente a TD(0) di propagare le informazioni sulla ricompensa nello spazio degli stati più rapidamente, anche se il bias iniziale può rallentare la convergenza.
Dati di apprendimento vs Modello di apprendimento
Un altro modo per analizzare questi due metodi è valutare cosa apprendono realmente:
La stima Monte Carlo apprende direttamente dai ritorni osservati, adattando di fatto le sue stime di valore agli episodi specifici che ha visto. Questo significa che minimizza l'errore su quelle traiettorie di addestramento, ma poiché non costruisce mai una visione esplicita di come gli stati si susseguano, può avere difficoltà a generalizzare a situazioni nuove o leggermente diverse.
TD(0), al contrario, utilizza il bootstrap su ogni transizione a un passo, combinando la ricompensa immediata con la sua stima del valore dello stato successivo. In questo modo, cattura efficacemente le relazioni tra gli stati — un modello implicito della dinamica dell'ambiente. Questa comprensione simile a un modello consente a TD(0) di generalizzare meglio a transizioni non viste, spesso producendo stime di valore più accurate su nuovi dati.
Pseudocodice
Grazie per i tuoi commenti!