Impara SARSA: Apprendimento TD On-Policy | Apprendimento a Differenza Temporale

Proprio come con i metodi Monte Carlo, è possibile seguire il framework della generalized policy iteration (GPI) per passare dalla stima delle funzioni di valore all'apprendimento di politiche ottimali. Tuttavia, questo processo introduce una sfida ben nota: il compromesso tra esplorazione e sfruttamento. Allo stesso modo, esistono due approcci che possiamo utilizzare: on-policy e off-policy. Iniziamo parlando del metodo on-policy — SARSA.

Definizione

SARSA è un algoritmo di controllo TD on-policy utilizzato per stimare la funzione di valore d'azione $q_\pi(s, a)$ . Aggiorna le sue stime in base all'azione effettivamente eseguita, rendendolo un algoritmo on-policy.

L'acronimo SARSA deriva dai cinque componenti chiave utilizzati nell'aggiornamento:

S: stato attuale $S_t$ ;
A: azione eseguita $A_t$ ;
R: ricompensa ricevuta $R_{t+1}$ ;
S: stato successivo $S_{t+1}$ ;
A: azione successiva $A_{t+1}$ .

Regola di aggiornamento

La regola di aggiornamento è simile alla TD(0), ma sostituisce la funzione di valore di stato con la funzione di valore d'azione:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

$A_{t+1}$ è l'azione che verrà effettivamente eseguita nel passo successivo, selezionata secondo la politica corrente. Questo implica che gli effetti dell'esplorazione sono incorporati nel processo di apprendimento.

Dopo ogni aggiornamento della funzione di valore d'azione, anche la politica viene aggiornata, permettendo all'agente di utilizzare immediatamente le nuove stime.

Pseudocodice

Quando utilizzare SARSA?

SARSA è preferibile quando:

Si lavora con ambienti ad alta stochasticità (ad esempio, superfici scivolose, transizioni inaffidabili);
Si accetta una convergenza più lenta in cambio di un comportamento più sicuro durante l'apprendimento.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 3

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Scorri per mostrare il menu