Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Q-Learning: Off-Policy TD-Leren
Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van in de tijd, die uiteindelijk naar nul nadert om van exploratie naar exploitatie over te gaan. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.
Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.
Update-regel
In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrag- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.
De Q-learning update-regel is:
Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:
Gebruikt Q-learning de waarde van de best mogelijke volgende actie:
Deze subtiele wijziging heeft een grote impact: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dat maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.
Wanneer Q-Learning gebruiken?
Q-learning is te verkiezen wanneer:
- Je te maken hebt met deterministische omgevingen, of omgevingen;
- Je een snellere convergentiesnelheid nodig hebt.
Bedankt voor je feedback!