Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara SARSA: Apprendimento TD On-Policy | Apprendimento a Differenza Temporale
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
SARSA: Apprendimento TD On-Policy

Proprio come nei metodi Monte Carlo, è possibile seguire il framework della generalized policy iteration (GPI) per passare dalla stima delle funzioni di valore all'apprendimento di politiche ottimali. Tuttavia, questo processo introduce una sfida ben nota: il compromesso tra esplorazione e sfruttamento. Allo stesso modo, esistono due approcci che si possono utilizzare: on-policy e off-policy. Iniziamo parlando del metodo on-policySARSA.

Note
Definizione

SARSA è un algoritmo di controllo TD on-policy utilizzato per stimare la funzione di valore d'azione qπ(s,a)q_\pi(s, a). Aggiorna le sue stime in base all'azione effettivamente eseguita, rendendolo un algoritmo on-policy.

L'acronimo SARSA deriva dai cinque elementi chiave utilizzati nell'aggiornamento:

  • S: stato attuale StS_t;
  • A: azione eseguita AtA_t;
  • R: ricompensa ricevuta Rt+1R_{t+1};
  • S: stato successivo St+1S_{t+1};
  • A: azione successiva At+1A_{t+1}.

Regola di aggiornamento

La regola di aggiornamento è simile alla TD(0), ma sostituisce la funzione di valore di stato con la funzione di valore d'azione:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} è l'azione che verrà effettivamente eseguita nel passo successivo, selezionata secondo la politica corrente. Questo significa che gli effetti dell'esplorazione sono incorporati nel processo di apprendimento.

Dopo ogni aggiornamento della funzione di valore d'azione, anche la politica viene aggiornata, permettendo all'agente di utilizzare immediatamente le nuove stime.

Pseudocodice

Quando utilizzare SARSA?

SARSA è preferibile quando:

  • Si lavora con ambienti ad alta stochasticità (ad esempio, superfici scivolose, transizioni inaffidabili);
  • Si accetta una convergenza più lenta in cambio di un comportamento più sicuro durante l'apprendimento.
question mark

In quale scenario SARSA è particolarmente preferibile?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 3

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
SARSA: Apprendimento TD On-Policy

Proprio come nei metodi Monte Carlo, è possibile seguire il framework della generalized policy iteration (GPI) per passare dalla stima delle funzioni di valore all'apprendimento di politiche ottimali. Tuttavia, questo processo introduce una sfida ben nota: il compromesso tra esplorazione e sfruttamento. Allo stesso modo, esistono due approcci che si possono utilizzare: on-policy e off-policy. Iniziamo parlando del metodo on-policySARSA.

Note
Definizione

SARSA è un algoritmo di controllo TD on-policy utilizzato per stimare la funzione di valore d'azione qπ(s,a)q_\pi(s, a). Aggiorna le sue stime in base all'azione effettivamente eseguita, rendendolo un algoritmo on-policy.

L'acronimo SARSA deriva dai cinque elementi chiave utilizzati nell'aggiornamento:

  • S: stato attuale StS_t;
  • A: azione eseguita AtA_t;
  • R: ricompensa ricevuta Rt+1R_{t+1};
  • S: stato successivo St+1S_{t+1};
  • A: azione successiva At+1A_{t+1}.

Regola di aggiornamento

La regola di aggiornamento è simile alla TD(0), ma sostituisce la funzione di valore di stato con la funzione di valore d'azione:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

At+1A_{t+1} è l'azione che verrà effettivamente eseguita nel passo successivo, selezionata secondo la politica corrente. Questo significa che gli effetti dell'esplorazione sono incorporati nel processo di apprendimento.

Dopo ogni aggiornamento della funzione di valore d'azione, anche la politica viene aggiornata, permettendo all'agente di utilizzare immediatamente le nuove stime.

Pseudocodice

Quando utilizzare SARSA?

SARSA è preferibile quando:

  • Si lavora con ambienti ad alta stochasticità (ad esempio, superfici scivolose, transizioni inaffidabili);
  • Si accetta una convergenza più lenta in cambio di un comportamento più sicuro durante l'apprendimento.
question mark

In quale scenario SARSA è particolarmente preferibile?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 3
some-alt