Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Q-Learning: Off-Policy TD-Læring | Temporal Difference-Læring
Introduktion til Reinforcement Learning
course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Q-Learning: Off-Policy TD-Læring

At lære en optimal politik med SARSA kan være udfordrende. Ligesom ved on-policy Monte Carlo-kontrol kræver det typisk en gradvis nedtrapning af ε\varepsilon over tid, som til sidst nærmer sig nul for at skifte fra udforskning til udnyttelse. Denne proces er ofte langsom og kan kræve omfattende træningstid. Et alternativ er at anvende en off-policy metode som Q-learning.

Note
Definition

Q-learning er en off-policy TD-kontrolalgoritme, der bruges til at estimere den optimale handlingsværdifunktion q(s,a)q_*(s, a). Den opdaterer sine estimater baseret på den aktuelt bedste handling, hvilket gør den til en off-policy algoritme.

Opdateringsregel

I modsætning til off-policy Monte Carlo-kontrol kræver Q-learning ikke importance sampling for at korrigere for forskelle mellem adfærds- og målfunktioner. I stedet benytter det en direkte opdateringsregel, der minder meget om SARSA, men med en væsentlig forskel.

Q-learning opdateringsreglen er:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den eneste forskel fra SARSA ligger i målværdien. I stedet for at bruge værdien af den næste handling, der faktisk udføres, som SARSA gør:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

benytter Q-learning værdien af den bedst mulige næste handling:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Denne subtile ændring har en stor betydning: den gør det muligt for Q-learning at evaluere handlinger ved hjælp af et estimat af den optimale politik, selv mens agenten stadig udforsker. Det er det, der gør det til en off-policy metode — den lærer om den grådige politik, uanset hvilke handlinger der vælges under træningen.

Hvornår skal Q-learning anvendes?

Q-learning er at foretrække når:

  • Du arbejder med deterministiske miljøer eller miljøer;
  • Du har behov for hurtigere konvergenshastighed.
question mark

Hvad adskiller Q-learning som en off-policy algoritme?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 4

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

course content

Kursusindhold

Introduktion til Reinforcement Learning

Introduktion til Reinforcement Learning

1. RL Kerneprincipper
2. Multi-Armet Bandit-Problem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-Læring

book
Q-Learning: Off-Policy TD-Læring

At lære en optimal politik med SARSA kan være udfordrende. Ligesom ved on-policy Monte Carlo-kontrol kræver det typisk en gradvis nedtrapning af ε\varepsilon over tid, som til sidst nærmer sig nul for at skifte fra udforskning til udnyttelse. Denne proces er ofte langsom og kan kræve omfattende træningstid. Et alternativ er at anvende en off-policy metode som Q-learning.

Note
Definition

Q-learning er en off-policy TD-kontrolalgoritme, der bruges til at estimere den optimale handlingsværdifunktion q(s,a)q_*(s, a). Den opdaterer sine estimater baseret på den aktuelt bedste handling, hvilket gør den til en off-policy algoritme.

Opdateringsregel

I modsætning til off-policy Monte Carlo-kontrol kræver Q-learning ikke importance sampling for at korrigere for forskelle mellem adfærds- og målfunktioner. I stedet benytter det en direkte opdateringsregel, der minder meget om SARSA, men med en væsentlig forskel.

Q-learning opdateringsreglen er:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den eneste forskel fra SARSA ligger i målværdien. I stedet for at bruge værdien af den næste handling, der faktisk udføres, som SARSA gør:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

benytter Q-learning værdien af den bedst mulige næste handling:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Denne subtile ændring har en stor betydning: den gør det muligt for Q-learning at evaluere handlinger ved hjælp af et estimat af den optimale politik, selv mens agenten stadig udforsker. Det er det, der gør det til en off-policy metode — den lærer om den grådige politik, uanset hvilke handlinger der vælges under træningen.

Hvornår skal Q-learning anvendes?

Q-learning er at foretrække når:

  • Du arbejder med deterministiske miljøer eller miljøer;
  • Du har behov for hurtigere konvergenshastighed.
question mark

Hvad adskiller Q-learning som en off-policy algoritme?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 5. Kapitel 4
some-alt