Leer Q-Learning: Off-Policy TD-Leren

Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van $\varepsilon$ in de tijd, waarbij uiteindelijk nul wordt benaderd om over te schakelen van exploratie naar exploitatie. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.

Definitie

Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie $q_*(s, a)$ te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.

Update-regel

In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrags- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.

De Q-learning update-regel is:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:

\gamma Q(S_{t+1}, A_{t+1})

maakt Q-learning gebruik van de waarde van de best mogelijke volgende actie:

\gamma \max_a Q(S_{t+1}, a)

Deze subtiele wijziging heeft een groot effect: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dat maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.

Wanneer Q-Learning gebruiken?

Q-learning is te verkiezen wanneer:

Er sprake is van deterministische omgevingen, of omgevingen;
Er behoefte is aan een snellere convergentiesnelheid.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 4

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen