SARSA: Apprendimento TD On-Policy
Proprio come nei metodi Monte Carlo, è possibile seguire il framework della generalized policy iteration (GPI) per passare dalla stima delle funzioni di valore all'apprendimento di politiche ottimali. Tuttavia, questo processo introduce una sfida ben nota: il compromesso tra esplorazione e sfruttamento. Allo stesso modo, esistono due approcci che si possono utilizzare: on-policy e off-policy. Iniziamo parlando del metodo on-policy — SARSA.
SARSA è un algoritmo di controllo TD on-policy utilizzato per stimare la funzione di valore d'azione qπ(s,a). Aggiorna le sue stime in base all'azione effettivamente eseguita, rendendolo un algoritmo on-policy.
L'acronimo SARSA deriva dai cinque elementi chiave utilizzati nell'aggiornamento:
- S: stato attuale St;
- A: azione eseguita At;
- R: ricompensa ricevuta Rt+1;
- S: stato successivo St+1;
- A: azione successiva At+1.
Regola di aggiornamento
La regola di aggiornamento è simile alla TD(0), ma sostituisce la funzione di valore di stato con la funzione di valore d'azione:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 è l'azione che verrà effettivamente eseguita nel passo successivo, selezionata secondo la politica corrente. Questo significa che gli effetti dell'esplorazione sono incorporati nel processo di apprendimento.
Dopo ogni aggiornamento della funzione di valore d'azione, anche la politica viene aggiornata, permettendo all'agente di utilizzare immediatamente le nuove stime.
Pseudocodice
Quando utilizzare SARSA?
SARSA è preferibile quando:
- Si lavora con ambienti ad alta stochasticità (ad esempio, superfici scivolose, transizioni inaffidabili);
- Si accetta una convergenza più lenta in cambio di un comportamento più sicuro durante l'apprendimento.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
SARSA: Apprendimento TD On-Policy
Scorri per mostrare il menu
Proprio come nei metodi Monte Carlo, è possibile seguire il framework della generalized policy iteration (GPI) per passare dalla stima delle funzioni di valore all'apprendimento di politiche ottimali. Tuttavia, questo processo introduce una sfida ben nota: il compromesso tra esplorazione e sfruttamento. Allo stesso modo, esistono due approcci che si possono utilizzare: on-policy e off-policy. Iniziamo parlando del metodo on-policy — SARSA.
SARSA è un algoritmo di controllo TD on-policy utilizzato per stimare la funzione di valore d'azione qπ(s,a). Aggiorna le sue stime in base all'azione effettivamente eseguita, rendendolo un algoritmo on-policy.
L'acronimo SARSA deriva dai cinque elementi chiave utilizzati nell'aggiornamento:
- S: stato attuale St;
- A: azione eseguita At;
- R: ricompensa ricevuta Rt+1;
- S: stato successivo St+1;
- A: azione successiva At+1.
Regola di aggiornamento
La regola di aggiornamento è simile alla TD(0), ma sostituisce la funzione di valore di stato con la funzione di valore d'azione:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))At+1 è l'azione che verrà effettivamente eseguita nel passo successivo, selezionata secondo la politica corrente. Questo significa che gli effetti dell'esplorazione sono incorporati nel processo di apprendimento.
Dopo ogni aggiornamento della funzione di valore d'azione, anche la politica viene aggiornata, permettendo all'agente di utilizzare immediatamente le nuove stime.
Pseudocodice
Quando utilizzare SARSA?
SARSA è preferibile quando:
- Si lavora con ambienti ad alta stochasticità (ad esempio, superfici scivolose, transizioni inaffidabili);
- Si accetta una convergenza più lenta in cambio di un comportamento più sicuro durante l'apprendimento.
Grazie per i tuoi commenti!