Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Q-Learning: Off-Policy TD-Leren | Temporale Verschil Leren
Introductie tot Reinforcement Learning

bookQ-Learning: Off-Policy TD-Leren

Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van ε\varepsilon in de tijd, die uiteindelijk naar nul nadert om de overgang van exploratie naar exploitatie te maken. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.

Note
Definitie

Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie q(s,a)q_*(s, a) te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.

Update-regel

In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrags- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.

De update-regel van Q-learning is:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

maakt Q-learning gebruik van de waarde van de best mogelijke volgende actie:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Deze subtiele wijziging heeft een groot effect: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dit maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.

Wanneer Q-learning gebruiken?

Q-learning is te verkiezen wanneer:

  • Er sprake is van deterministische omgevingen, of omgevingen;
  • Er behoefte is aan een snellere convergentiesnelheid.
question mark

Wat onderscheidt Q-learning als een off-policy algoritme?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Awesome!

Completion rate improved to 2.7

bookQ-Learning: Off-Policy TD-Leren

Veeg om het menu te tonen

Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van ε\varepsilon in de tijd, die uiteindelijk naar nul nadert om de overgang van exploratie naar exploitatie te maken. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.

Note
Definitie

Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie q(s,a)q_*(s, a) te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.

Update-regel

In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrags- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.

De update-regel van Q-learning is:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

maakt Q-learning gebruik van de waarde van de best mogelijke volgende actie:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Deze subtiele wijziging heeft een groot effect: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dit maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.

Wanneer Q-learning gebruiken?

Q-learning is te verkiezen wanneer:

  • Er sprake is van deterministische omgevingen, of omgevingen;
  • Er behoefte is aan een snellere convergentiesnelheid.
question mark

Wat onderscheidt Q-learning als een off-policy algoritme?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 4
some-alt