Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
SARSA: Apprendimento TD On-Policy
Proprio come nei metodi Monte Carlo, è possibile seguire il framework della generalized policy iteration (GPI) per passare dalla stima delle funzioni di valore all'apprendimento di politiche ottimali. Tuttavia, questo processo introduce una sfida ben nota: il compromesso tra esplorazione e sfruttamento. Allo stesso modo, esistono due approcci che si possono utilizzare: on-policy e off-policy. Iniziamo parlando del metodo on-policy — SARSA.
SARSA è un algoritmo di controllo TD on-policy utilizzato per stimare la funzione di valore d'azione . Aggiorna le sue stime in base all'azione effettivamente eseguita, rendendolo un algoritmo on-policy.
L'acronimo SARSA deriva dai cinque elementi chiave utilizzati nell'aggiornamento:
- S: stato attuale ;
- A: azione eseguita ;
- R: ricompensa ricevuta ;
- S: stato successivo ;
- A: azione successiva .
Regola di aggiornamento
La regola di aggiornamento è simile alla TD(0), ma sostituisce la funzione di valore di stato con la funzione di valore d'azione:
è l'azione che verrà effettivamente eseguita nel passo successivo, selezionata secondo la politica corrente. Questo significa che gli effetti dell'esplorazione sono incorporati nel processo di apprendimento.
Dopo ogni aggiornamento della funzione di valore d'azione, anche la politica viene aggiornata, permettendo all'agente di utilizzare immediatamente le nuove stime.
Pseudocodice
Quando utilizzare SARSA?
SARSA è preferibile quando:
- Si lavora con ambienti ad alta stochasticità (ad esempio, superfici scivolose, transizioni inaffidabili);
- Si accetta una convergenza più lenta in cambio di un comportamento più sicuro durante l'apprendimento.
Grazie per i tuoi commenti!