Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Q-inlärning: Off-Policy TD-inlärning
Att lära sig en optimal policy med SARSA kan vara utmanande. Likt on-policy Monte Carlo-kontroll kräver det vanligtvis en gradvis minskning av över tid, som så småningom närmar sig noll för att gå från utforskning till exploatering. Denna process är ofta långsam och kan kräva omfattande träningstid. Ett alternativ är att använda en off-policy-metod som Q-learning.
Q-learning är en off-policy TD-kontrollalgoritm som används för att uppskatta den optimala aktionsvärdesfunktionen . Den uppdaterar sina uppskattningar baserat på den nuvarande bästa åtgärden, vilket gör den till en off-policy-algoritm.
Uppdateringsregel
Till skillnad från off-policy Monte Carlo-kontroll kräver Q-learning inte importance sampling för att korrigera skillnader mellan beteende- och målpolicys. Istället bygger det på en direkt uppdateringsregel som liknar SARSA, men med en avgörande skillnad.
Q-learning-uppdateringsregeln är:
Den enda skillnaden från SARSA är i målvärdet. Istället för att använda värdet av nästa faktiskt utförda åtgärd, som SARSA gör:
Använder Q-learning värdet av den bästa möjliga nästa åtgärden:
Denna subtila förändring har en stor påverkan: den gör det möjligt för Q-learning att utvärdera åtgärder med en uppskattning av den optimala policyn, även medan agenten fortfarande utforskar. Det är detta som gör det till en off-policy-metod — den lär sig om den giriga policyn, oavsett vilka åtgärder som väljs under träningen.
När ska Q-learning användas?
Q-learning är att föredra när:
- Du arbetar med deterministiska miljöer, eller miljöer;
- Du behöver en snabbare konvergenshastighet.
Tack för dina kommentarer!