Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Q-læring: Off-Policy TD-Læring | Temporal Difference-læring
Introduksjon til Forsterkende Læring
course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Q-læring: Off-Policy TD-Læring

Å lære en optimal policy med SARSA kan være utfordrende. På samme måte som ved on-policy Monte Carlo-kontroll, krever det vanligvis en gradvis reduksjon av ε\varepsilon over tid, som til slutt nærmer seg null for å gå fra utforskning til utnyttelse. Denne prosessen er ofte treg og kan kreve omfattende treningstid. Et alternativ er å bruke en off-policy metode som Q-learning.

Note
Definisjon

Q-learning er en off-policy TD-kontrollalgoritme som brukes til å estimere den optimale aksjonsverdifunksjonen q(s,a)q_*(s, a). Den oppdaterer sine estimater basert på den nåværende beste handlingen, noe som gjør den til en off-policy algoritme.

Oppdateringsregel

I motsetning til off-policy Monte Carlo-kontroll, krever ikke Q-learning importance sampling for å korrigere for forskjeller mellom atferds- og målpolitikk. I stedet benytter den en direkte oppdateringsregel som ligner på SARSA, men med en viktig forskjell.

Oppdateringsregelen for Q-learning er:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den eneste forskjellen fra SARSA ligger i målverdien. I stedet for å bruke verdien av den neste handlingen som faktisk ble valgt, slik SARSA gjør:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

benytter Q-learning verdien av den beste mulige neste handlingen:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Denne subtile endringen har stor betydning: den gjør det mulig for Q-learning å evaluere handlinger ved hjelp av et estimat av den optimale politikken, selv mens agenten fortsatt utforsker. Det er dette som gjør det til en off-policy-metode — den lærer om den grådige politikken, uavhengig av hvilke handlinger som velges under trening.

Når bør Q-learning brukes?

Q-learning er å foretrekke når:

  • Du arbeider med deterministiske miljøer, eller miljøer;
  • Du har behov for raskere konvergenshastighet.
question mark

Hva kjennetegner Q-læring som en off-policy-algoritme?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 4

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

course content

Kursinnhold

Introduksjon til Forsterkende Læring

Introduksjon til Forsterkende Læring

1. Kjerneprinsipper i RL
2. Multi-Armet Bandittproblem
3. Dynamisk Programmering
4. Monte Carlo-metoder
5. Temporal Difference-læring

book
Q-læring: Off-Policy TD-Læring

Å lære en optimal policy med SARSA kan være utfordrende. På samme måte som ved on-policy Monte Carlo-kontroll, krever det vanligvis en gradvis reduksjon av ε\varepsilon over tid, som til slutt nærmer seg null for å gå fra utforskning til utnyttelse. Denne prosessen er ofte treg og kan kreve omfattende treningstid. Et alternativ er å bruke en off-policy metode som Q-learning.

Note
Definisjon

Q-learning er en off-policy TD-kontrollalgoritme som brukes til å estimere den optimale aksjonsverdifunksjonen q(s,a)q_*(s, a). Den oppdaterer sine estimater basert på den nåværende beste handlingen, noe som gjør den til en off-policy algoritme.

Oppdateringsregel

I motsetning til off-policy Monte Carlo-kontroll, krever ikke Q-learning importance sampling for å korrigere for forskjeller mellom atferds- og målpolitikk. I stedet benytter den en direkte oppdateringsregel som ligner på SARSA, men med en viktig forskjell.

Oppdateringsregelen for Q-learning er:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den eneste forskjellen fra SARSA ligger i målverdien. I stedet for å bruke verdien av den neste handlingen som faktisk ble valgt, slik SARSA gjør:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

benytter Q-learning verdien av den beste mulige neste handlingen:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Denne subtile endringen har stor betydning: den gjør det mulig for Q-learning å evaluere handlinger ved hjelp av et estimat av den optimale politikken, selv mens agenten fortsatt utforsker. Det er dette som gjør det til en off-policy-metode — den lærer om den grådige politikken, uavhengig av hvilke handlinger som velges under trening.

Når bør Q-learning brukes?

Q-learning er å foretrekke når:

  • Du arbeider med deterministiske miljøer, eller miljøer;
  • Du har behov for raskere konvergenshastighet.
question mark

Hva kjennetegner Q-læring som en off-policy-algoritme?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 4
some-alt