Lære Q-læring: Off-Policy TD-Læring | Temporal Difference-læring

Å lære en optimal policy med SARSA kan være utfordrende. På samme måte som ved on-policy Monte Carlo-kontroll, krever det vanligvis en gradvis reduksjon av $\varepsilon$ over tid, som til slutt nærmer seg null for å gå fra utforskning til utnyttelse. Denne prosessen er ofte treg og kan kreve omfattende treningstid. Et alternativ er å bruke en off-policy metode som Q-learning.

Definisjon

Q-learning er en off-policy TD-kontrollalgoritme som brukes til å estimere den optimale aksjonsverdifunksjonen $q_*(s, a)$ . Den oppdaterer sine estimater basert på den nåværende beste handlingen, noe som gjør den til en off-policy algoritme.

Oppdateringsregel

I motsetning til off-policy Monte Carlo-kontroll, krever ikke Q-learning importance sampling for å korrigere for forskjeller mellom atferds- og målpolitikk. I stedet benytter den en direkte oppdateringsregel som ligner på SARSA, men med en viktig forskjell.

Oppdateringsregelen for Q-learning er:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Den eneste forskjellen fra SARSA ligger i målverdien. I stedet for å bruke verdien av den neste handlingen som faktisk utføres, slik SARSA gjør:

\gamma Q(S_{t+1}, A_{t+1})

benytter Q-learning verdien av den beste mulige neste handlingen:

\gamma \max_a Q(S_{t+1}, a)

Denne subtile endringen har stor betydning: den gjør det mulig for Q-learning å evaluere handlinger ved hjelp av et estimat av den optimale politikken, selv mens agenten fortsatt utforsker. Det er dette som gjør det til en off-policy metode — den lærer om den grådige politikken, uavhengig av hvilke handlinger som velges under trening.

Når bør Q-learning brukes?

Q-learning er å foretrekke når:

Du arbeider med deterministiske miljøer, eller miljøer;
Du har behov for raskere konvergenshastighet.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 5. Kapittel 4

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Sveip for å vise menyen