Contenuti del Corso
Introduzione al Reinforcement Learning
Introduzione al Reinforcement Learning
Q-Learning: Apprendimento TD Off-Policy
L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.
Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale . Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.
Regola di aggiornamento
A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.
La regola di aggiornamento di Q-learning è:
L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:
Q-learning utilizza il valore della migliore azione possibile successiva:
Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.
Quando utilizzare Q-Learning?
Q-learning è preferibile quando:
- Si lavora con ambienti deterministici, o ambienti;
- È necessaria una velocità di convergenza più elevata.
Grazie per i tuoi commenti!