Lære Q-Learning: Off-Policy TD-Læring | Temporal Difference Learning

At lære en optimal politik med SARSA kan være udfordrende. Ligesom ved on-policy Monte Carlo-kontrol kræver det typisk en gradvis reduktion af $\varepsilon$ over tid, som til sidst nærmer sig nul for at skifte fra udforskning til udnyttelse. Denne proces er ofte langsom og kan kræve omfattende træningstid. Et alternativ er at anvende en off-policy metode som Q-learning.

Definition

Q-learning er en off-policy TD-kontrolalgoritme, der bruges til at estimere den optimale handlingsværdifunktion $q_*(s, a)$ . Den opdaterer sine estimater baseret på den aktuelt bedste handling, hvilket gør den til en off-policy algoritme.

Opdateringsregel

I modsætning til off-policy Monte Carlo-kontrol kræver Q-learning ikke importance sampling for at korrigere for forskelle mellem adfærds- og målfunktioner. I stedet benytter den en direkte opdateringsregel, der minder meget om SARSA, men med en væsentlig forskel.

Q-learning opdateringsreglen er:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den eneste forskel fra SARSA er i målværdien. I stedet for at bruge værdien af den næste handling, der faktisk blev udført, som SARSA gør:

\gamma Q(S_{t+1}, A_{t+1})

benytter Q-learning værdien af den bedst mulige næste handling:

\gamma \max_a Q(S_{t+1}, a)

Denne subtile ændring har en stor betydning: den gør det muligt for Q-learning at evaluere handlinger ved hjælp af et estimat af den optimale politik, selv mens agenten stadig udforsker. Det er det, der gør det til en off-policy metode — den lærer om den grådige politik, uanset hvilke handlinger der vælges under træning.

Hvornår skal Q-learning anvendes?

Q-learning er at foretrække når:

Der arbejdes med deterministiske miljøer eller miljøer;
Der er behov for hurtigere konvergenshastighed.

Var alt klart?

Tak for dine kommentarer!

Sektion 5. Kapitel 4

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Stryg for at vise menuen