Q-Learning: Off-Policy TD-Leren
Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van ε in de tijd, die uiteindelijk naar nul nadert om de overgang van exploratie naar exploitatie te maken. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.
Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie q∗(s,a) te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.
Update-regel
In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrags- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.
De update-regel van Q-learning is:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:
γQ(St+1,At+1)maakt Q-learning gebruik van de waarde van de best mogelijke volgende actie:
γamaxQ(St+1,a)Deze subtiele wijziging heeft een groot effect: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dit maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.
Wanneer Q-learning gebruiken?
Q-learning is te verkiezen wanneer:
- Er sprake is van deterministische omgevingen, of omgevingen;
- Er behoefte is aan een snellere convergentiesnelheid.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain the main differences between SARSA and Q-learning in more detail?
When should I choose SARSA over Q-learning?
Can you provide an example of how Q-learning is applied in practice?
Awesome!
Completion rate improved to 2.7
Q-Learning: Off-Policy TD-Leren
Veeg om het menu te tonen
Het leren van een optimaal beleid met SARSA kan uitdagend zijn. Net als bij on-policy Monte Carlo-controle vereist het doorgaans een geleidelijke afname van ε in de tijd, die uiteindelijk naar nul nadert om de overgang van exploratie naar exploitatie te maken. Dit proces verloopt vaak traag en kan veel trainingstijd vergen. Een alternatief is het gebruik van een off-policy methode zoals Q-learning.
Q-learning is een off-policy TD-controle-algoritme dat wordt gebruikt om de optimale actie-waardefunctie q∗(s,a) te schatten. Het werkt zijn schattingen bij op basis van de huidige beste actie, waardoor het een off-policy algoritme is.
Update-regel
In tegenstelling tot off-policy Monte Carlo-controle, vereist Q-learning geen importance sampling om verschillen tussen gedrags- en doelbeleid te corrigeren. In plaats daarvan maakt het gebruik van een directe update-regel die sterk lijkt op SARSA, maar met een belangrijk verschil.
De update-regel van Q-learning is:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Het enige verschil met SARSA zit in de doelwaarde. In plaats van de waarde te gebruiken van de volgende daadwerkelijk genomen actie, zoals SARSA doet:
γQ(St+1,At+1)maakt Q-learning gebruik van de waarde van de best mogelijke volgende actie:
γamaxQ(St+1,a)Deze subtiele wijziging heeft een groot effect: het stelt Q-learning in staat om acties te evalueren met een schatting van het optimale beleid, zelfs terwijl de agent nog aan het verkennen is. Dit maakt het een off-policy methode — het leert over het hebzuchtige beleid, ongeacht de acties die tijdens de training worden gekozen.
Wanneer Q-learning gebruiken?
Q-learning is te verkiezen wanneer:
- Er sprake is van deterministische omgevingen, of omgevingen;
- Er behoefte is aan een snellere convergentiesnelheid.
Bedankt voor je feedback!