Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Q-Learning: Apprendimento TD Off-Policy | Apprendimento a Differenza Temporale
Introduzione al Reinforcement Learning
course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Q-Learning: Apprendimento TD Off-Policy

L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di ε\varepsilon nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.

Note
Definizione

Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale q(s,a)q_*(s, a). Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.

Regola di aggiornamento

A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.

La regola di aggiornamento di Q-learning è:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilizza il valore della migliore azione possibile successiva:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.

Quando utilizzare Q-Learning?

Q-learning è preferibile quando:

  • Si lavora con ambienti deterministici, o ambienti;
  • È necessaria una velocità di convergenza più elevata.
question mark

Cosa distingue Q-learning come algoritmo off-policy?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 4

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

course content

Contenuti del Corso

Introduzione al Reinforcement Learning

Introduzione al Reinforcement Learning

1. Teoria Fondamentale dell'RL
2. Problema del Multi-Armed Bandit
3. Programmazione Dinamica
4. Metodi Monte Carlo
5. Apprendimento a Differenza Temporale

book
Q-Learning: Apprendimento TD Off-Policy

L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di ε\varepsilon nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.

Note
Definizione

Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale q(s,a)q_*(s, a). Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.

Regola di aggiornamento

A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.

La regola di aggiornamento di Q-learning è:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilizza il valore della migliore azione possibile successiva:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.

Quando utilizzare Q-Learning?

Q-learning è preferibile quando:

  • Si lavora con ambienti deterministici, o ambienti;
  • È necessaria una velocità di convergenza più elevata.
question mark

Cosa distingue Q-learning come algoritmo off-policy?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 4
some-alt