Impara Q-Learning: Apprendimento TD Off-Policy | Apprendimento a Differenza Temporale

L'apprendimento di una politica ottimale con SARSA può risultare impegnativo. Analogamente al controllo Monte Carlo on-policy, richiede tipicamente una decrescita graduale di $\varepsilon$ nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento considerevole. Un'alternativa consiste nell'utilizzare un metodo off-policy come il Q-learning.

Definizione

Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale $q_*(s, a)$ . Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.

Regola di aggiornamento

A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.

La regola di aggiornamento di Q-learning è:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:

\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilizza il valore della migliore prossima azione possibile:

\gamma \max_a Q(S_{t+1}, a)

Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.

Quando utilizzare Q-Learning?

Q-learning è preferibile quando:

Si lavora con ambienti deterministici, o ambienti;
È necessaria una velocità di convergenza più elevata.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 4

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Scorri per mostrare il menu