Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Q-inlärning: Off-Policy TD-inlärning | Temporär Differensinlärning
Introduktion till Förstärkningsinlärning
course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Q-inlärning: Off-Policy TD-inlärning

Att lära sig en optimal policy med SARSA kan vara utmanande. Likt on-policy Monte Carlo-kontroll kräver det vanligtvis en gradvis minskning av ε\varepsilon över tid, som så småningom närmar sig noll för att gå från utforskning till exploatering. Denna process är ofta långsam och kan kräva omfattande träningstid. Ett alternativ är att använda en off-policy-metod som Q-learning.

Note
Definition

Q-learning är en off-policy TD-kontrollalgoritm som används för att uppskatta den optimala aktionsvärdesfunktionen q(s,a)q_*(s, a). Den uppdaterar sina uppskattningar baserat på den nuvarande bästa åtgärden, vilket gör den till en off-policy-algoritm.

Uppdateringsregel

Till skillnad från off-policy Monte Carlo-kontroll kräver Q-learning inte importance sampling för att korrigera skillnader mellan beteende- och målpolicys. Istället bygger det på en direkt uppdateringsregel som liknar SARSA, men med en avgörande skillnad.

Q-learning-uppdateringsregeln är:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den enda skillnaden från SARSA är i målvärdet. Istället för att använda värdet av nästa faktiskt utförda åtgärd, som SARSA gör:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Använder Q-learning värdet av den bästa möjliga nästa åtgärden:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Denna subtila förändring har en stor påverkan: den gör det möjligt för Q-learning att utvärdera åtgärder med en uppskattning av den optimala policyn, även medan agenten fortfarande utforskar. Det är detta som gör det till en off-policy-metod — den lär sig om den giriga policyn, oavsett vilka åtgärder som väljs under träningen.

När ska Q-learning användas?

Q-learning är att föredra när:

  • Du arbetar med deterministiska miljöer, eller miljöer;
  • Du behöver en snabbare konvergenshastighet.
question mark

Vad särskiljer Q-learning som en off-policy-algoritm?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 4

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

course content

Kursinnehåll

Introduktion till Förstärkningsinlärning

Introduktion till Förstärkningsinlärning

1. RL Kärnteori
2. Multi-Armed Bandit-Problemet
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporär Differensinlärning

book
Q-inlärning: Off-Policy TD-inlärning

Att lära sig en optimal policy med SARSA kan vara utmanande. Likt on-policy Monte Carlo-kontroll kräver det vanligtvis en gradvis minskning av ε\varepsilon över tid, som så småningom närmar sig noll för att gå från utforskning till exploatering. Denna process är ofta långsam och kan kräva omfattande träningstid. Ett alternativ är att använda en off-policy-metod som Q-learning.

Note
Definition

Q-learning är en off-policy TD-kontrollalgoritm som används för att uppskatta den optimala aktionsvärdesfunktionen q(s,a)q_*(s, a). Den uppdaterar sina uppskattningar baserat på den nuvarande bästa åtgärden, vilket gör den till en off-policy-algoritm.

Uppdateringsregel

Till skillnad från off-policy Monte Carlo-kontroll kräver Q-learning inte importance sampling för att korrigera skillnader mellan beteende- och målpolicys. Istället bygger det på en direkt uppdateringsregel som liknar SARSA, men med en avgörande skillnad.

Q-learning-uppdateringsregeln är:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den enda skillnaden från SARSA är i målvärdet. Istället för att använda värdet av nästa faktiskt utförda åtgärd, som SARSA gör:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Använder Q-learning värdet av den bästa möjliga nästa åtgärden:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Denna subtila förändring har en stor påverkan: den gör det möjligt för Q-learning att utvärdera åtgärder med en uppskattning av den optimala policyn, även medan agenten fortfarande utforskar. Det är detta som gör det till en off-policy-metod — den lär sig om den giriga policyn, oavsett vilka åtgärder som väljs under träningen.

När ska Q-learning användas?

Q-learning är att föredra när:

  • Du arbetar med deterministiska miljöer, eller miljöer;
  • Du behöver en snabbare konvergenshastighet.
question mark

Vad särskiljer Q-learning som en off-policy-algoritm?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 5. Kapitel 4
some-alt