Lära Q-inlärning: Off-Policy TD-inlärning | Temporär Differensinlärning

Att lära sig en optimal policy med SARSA kan vara utmanande. Likt on-policy Monte Carlo-kontroll kräver det vanligtvis en gradvis minskning av $\varepsilon$ över tid, som så småningom närmar sig noll för att gå från utforskning till exploatering. Denna process är ofta långsam och kan kräva omfattande träningstid. Ett alternativ är att använda en off-policy-metod som Q-learning.

Definition

Q-learning är en off-policy TD-kontrollalgoritm som används för att uppskatta den optimala aktionsvärdesfunktionen $q_*(s, a)$ . Den uppdaterar sina uppskattningar baserat på den nuvarande bästa åtgärden, vilket gör den till en off-policy-algoritm.

Uppdateringsregel

Till skillnad från off-policy Monte Carlo-kontroll kräver Q-learning inte importance sampling för att korrigera skillnader mellan beteende- och målpolicys. Istället bygger det på en direkt uppdateringsregel som liknar SARSA, men med en viktig skillnad.

Q-learning-uppdateringsregeln är:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den enda skillnaden från SARSA är målvärdet. Istället för att använda värdet av nästa faktiskt utförda åtgärd, som SARSA gör:

\gamma Q(S_{t+1}, A_{t+1})

Använder Q-learning värdet av den bästa möjliga nästa åtgärden:

\gamma \max_a Q(S_{t+1}, a)

Denna subtila förändring har stor betydelse: den gör det möjligt för Q-learning att utvärdera åtgärder med en uppskattning av den optimala policyn, även medan agenten fortfarande utforskar. Det är detta som gör det till en off-policy-metod — den lär sig om den giriga policyn, oavsett vilka åtgärder som väljs under träningen.

När ska Q-learning användas?

Q-learning är att föredra när:

Du arbetar med deterministiska miljöer, eller miljöer;
Du behöver en snabbare konvergenshastighet.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 4

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Svep för att visa menyn