Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Q-Learning: Apprendimento TD Off-Policy | Apprendimento a Differenza Temporale
Introduzione al Reinforcement Learning

bookQ-Learning: Apprendimento TD Off-Policy

L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di ε\varepsilon nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.

Note
Definizione

Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale q(s,a)q_*(s, a). Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.

Regola di aggiornamento

A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.

La regola di aggiornamento di Q-learning è:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilizza il valore della migliore azione possibile successiva:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.

Quando utilizzare Q-Learning?

Q-learning è preferibile quando:

  • Si lavora con ambienti deterministici, o ambienti;
  • È necessaria una velocità di convergenza più elevata.
question mark

Cosa distingue Q-learning come algoritmo off-policy?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 4

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 2.7

bookQ-Learning: Apprendimento TD Off-Policy

Scorri per mostrare il menu

L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di ε\varepsilon nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.

Note
Definizione

Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale q(s,a)q_*(s, a). Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.

Regola di aggiornamento

A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.

La regola di aggiornamento di Q-learning è:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilizza il valore della migliore azione possibile successiva:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.

Quando utilizzare Q-Learning?

Q-learning è preferibile quando:

  • Si lavora con ambienti deterministici, o ambienti;
  • È necessaria una velocità di convergenza più elevata.
question mark

Cosa distingue Q-learning come algoritmo off-policy?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 4
some-alt