Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Q-Learning: Off-Policy TD-Leren | Temporale Verschil Leren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Q-Learning: Off-Policy TD-Leren

Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van ε\varepsilon in de tijd, die uiteindelijk naar nul nadert om van exploratie naar exploitatie over te gaan. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.

Note
Definitie

Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie q(s,a)q_*(s, a) te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.

Update-regel

In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrag- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.

De Q-learning update-regel is:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Gebruikt Q-learning de waarde van de best mogelijke volgende actie:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Deze subtiele wijziging heeft een grote impact: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dat maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.

Wanneer Q-Learning gebruiken?

Q-learning is te verkiezen wanneer:

  • Je te maken hebt met deterministische omgevingen, of omgevingen;
  • Je een snellere convergentiesnelheid nodig hebt.
question mark

Wat onderscheidt Q-learning als een off-policy algoritme?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Q-Learning: Off-Policy TD-Leren

Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van ε\varepsilon in de tijd, die uiteindelijk naar nul nadert om van exploratie naar exploitatie over te gaan. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.

Note
Definitie

Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie q(s,a)q_*(s, a) te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.

Update-regel

In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrag- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.

De Q-learning update-regel is:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Gebruikt Q-learning de waarde van de best mogelijke volgende actie:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Deze subtiele wijziging heeft een grote impact: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dat maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.

Wanneer Q-Learning gebruiken?

Q-learning is te verkiezen wanneer:

  • Je te maken hebt met deterministische omgevingen, of omgevingen;
  • Je een snellere convergentiesnelheid nodig hebt.
question mark

Wat onderscheidt Q-learning als een off-policy algoritme?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 4
some-alt