Impara TD(0): Stima della Funzione di Valore | Apprendimento a Differenza Temporale

La versione più semplice dell'apprendimento TD è chiamata TD(0). Aggiorna il valore di uno stato in base alla ricompensa immediata e al valore stimato dello stato successivo. Si tratta di un metodo TD a un passo.

Regola di aggiornamento

Dato uno stato $S_t$ , una ricompensa $R_{t+1}$ e lo stato successivo $S_{t+1}$ , la regola di aggiornamento è la seguente:

V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

dove

$\alpha$ è il tasso di apprendimento, o passo di aggiornamento;
$\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t)$ è l'errore TD.

Intuizione

La funzione di valore di stato $v_\pi$ può essere definita ed espansa come segue:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Questo fornisce la prima parte di $\delta_t$ — il ritorno sperimentato $R_{t+1} + \gamma V(S_{t+1})$ . La seconda parte di $\delta_t$ è il ritorno atteso $V(S_t)$ . L'errore TD $\delta_t$ rappresenta quindi la discrepanza osservabile tra ciò che è effettivamente accaduto e ciò che si credeva sarebbe accaduto. La regola di aggiornamento modifica quindi la convinzione precedente a ogni passo, avvicinandola alla realtà.

TD(0) vs Stima Monte Carlo

Sia TD(0) che la stima Monte Carlo utilizzano esperienze campionate per stimare la funzione di valore di stato $v_\pi(s)$ per una politica $\pi$ . In condizioni standard di convergenza, entrambi convergono al vero $v_\pi(s)$ quando il numero di visite a ciascuno stato tende all'infinito. Nella pratica, tuttavia, si dispone solo di una quantità finita di dati, e i due metodi differiscono significativamente sia nell'utilizzo di questi dati sia nella velocità di apprendimento.

Compromesso Bias-Varianza

Dal punto di vista del compromesso bias-varianza:

La stima Monte Carlo attende la fine di un episodio e poi utilizza il ritorno completo per aggiornare i valori. Questo produce stime non distorte — i ritorni riflettono realmente la distribuzione sottostante — ma possono variare notevolmente, soprattutto in compiti lunghi o altamente stocastici. L'alta varianza implica che siano necessari molti episodi per attenuare il rumore e ottenere stime di valore stabili.

TD(0) utilizza il bootstrap combinando ogni ricompensa a un passo con la stima attuale del valore dello stato successivo. Questo introduce bias — gli aggiornamenti iniziali si basano su stime imperfette — ma mantiene la varianza bassa, poiché ogni aggiornamento si basa su un piccolo errore incrementale. La varianza più bassa consente a TD(0) di propagare le informazioni sulla ricompensa nello spazio degli stati più rapidamente, anche se il bias iniziale può rallentare la convergenza.

Dati di apprendimento vs Modello di apprendimento

Un altro modo per analizzare questi due metodi è valutare cosa apprendono realmente:

La stima Monte Carlo apprende direttamente dai ritorni osservati, adattando di fatto le sue stime di valore agli episodi specifici che ha visto. Questo significa che minimizza l'errore su quelle traiettorie di addestramento, ma poiché non costruisce mai una visione esplicita di come gli stati si susseguano, può avere difficoltà a generalizzare a situazioni nuove o leggermente diverse.

TD(0), al contrario, utilizza il bootstrap su ogni transizione a un passo, combinando la ricompensa immediata con la sua stima del valore dello stato successivo. In questo modo, cattura efficacemente le relazioni tra gli stati — un modello implicito della dinamica dell'ambiente. Questa comprensione simile a un modello consente a TD(0) di generalizzare meglio a transizioni non viste, spesso producendo stime di valore più accurate su nuovi dati.

Pseudocodice

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 2

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the main differences between TD(0) and Monte Carlo methods in more detail?

How does the bias-variance tradeoff affect the choice between TD(0) and Monte Carlo?

Can you walk me through the TD(0) update rule with a concrete example?

Scorri per mostrare il menu