Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Q-Learning: Off-Policy TD-Læring
At lære en optimal politik med SARSA kan være udfordrende. Ligesom ved on-policy Monte Carlo-kontrol kræver det typisk en gradvis nedtrapning af over tid, som til sidst nærmer sig nul for at skifte fra udforskning til udnyttelse. Denne proces er ofte langsom og kan kræve omfattende træningstid. Et alternativ er at anvende en off-policy metode som Q-learning.
Q-learning er en off-policy TD-kontrolalgoritme, der bruges til at estimere den optimale handlingsværdifunktion . Den opdaterer sine estimater baseret på den aktuelt bedste handling, hvilket gør den til en off-policy algoritme.
Opdateringsregel
I modsætning til off-policy Monte Carlo-kontrol kræver Q-learning ikke importance sampling for at korrigere for forskelle mellem adfærds- og målfunktioner. I stedet benytter det en direkte opdateringsregel, der minder meget om SARSA, men med en væsentlig forskel.
Q-learning opdateringsreglen er:
Den eneste forskel fra SARSA ligger i målværdien. I stedet for at bruge værdien af den næste handling, der faktisk udføres, som SARSA gør:
benytter Q-learning værdien af den bedst mulige næste handling:
Denne subtile ændring har en stor betydning: den gør det muligt for Q-learning at evaluere handlinger ved hjælp af et estimat af den optimale politik, selv mens agenten stadig udforsker. Det er det, der gør det til en off-policy metode — den lærer om den grådige politik, uanset hvilke handlinger der vælges under træningen.
Hvornår skal Q-learning anvendes?
Q-learning er at foretrække når:
- Du arbejder med deterministiske miljøer eller miljøer;
- Du har behov for hurtigere konvergenshastighed.
Tak for dine kommentarer!