Q-Learning: Apprendimento TD Off-Policy
L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di ε nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.
Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale q∗(s,a). Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.
Regola di aggiornamento
A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.
La regola di aggiornamento di Q-learning è:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:
γQ(St+1,At+1)Q-learning utilizza il valore della migliore azione possibile successiva:
γamaxQ(St+1,a)Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.
Quando utilizzare Q-Learning?
Q-learning è preferibile quando:
- Si lavora con ambienti deterministici, o ambienti;
- È necessaria una velocità di convergenza più elevata.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 2.7
Q-Learning: Apprendimento TD Off-Policy
Scorri per mostrare il menu
L'apprendimento di una politica ottimale con SARSA può essere impegnativo. Simile al controllo Monte Carlo on-policy, richiede tipicamente una decadimento graduale di ε nel tempo, avvicinandosi infine a zero per passare dall'esplorazione allo sfruttamento. Questo processo è spesso lento e può richiedere un tempo di addestramento esteso. Un'alternativa è utilizzare un metodo off-policy come il Q-learning.
Q-learning è un algoritmo di controllo TD off-policy utilizzato per stimare la funzione di valore d'azione ottimale q∗(s,a). Aggiorna le sue stime in base all'azione migliore attuale, rendendolo un algoritmo off-policy.
Regola di aggiornamento
A differenza del controllo Monte Carlo off-policy, Q-learning non richiede il campionamento di importanza per correggere le differenze tra la policy di comportamento e quella target. Invece, si basa su una regola di aggiornamento diretta che assomiglia molto a SARSA, ma con una differenza fondamentale.
La regola di aggiornamento di Q-learning è:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))L'unica differenza rispetto a SARSA riguarda il valore target. Invece di utilizzare il valore della prossima azione effettivamente eseguita, come fa SARSA:
γQ(St+1,At+1)Q-learning utilizza il valore della migliore azione possibile successiva:
γamaxQ(St+1,a)Questa modifica sottile ha un grande impatto: consente a Q-learning di valutare le azioni utilizzando una stima della policy ottimale, anche mentre l'agente sta ancora esplorando. Questo è ciò che lo rende un metodo off-policy — apprende riguardo alla policy greedy, indipendentemente dalle azioni scelte durante l'addestramento.
Quando utilizzare Q-Learning?
Q-learning è preferibile quando:
- Si lavora con ambienti deterministici, o ambienti;
- È necessaria una velocità di convergenza più elevata.
Grazie per i tuoi commenti!