Kursinnhold
Introduksjon til Forsterkende Læring
Introduksjon til Forsterkende Læring
Q-læring: Off-Policy TD-Læring
Å lære en optimal policy med SARSA kan være utfordrende. På samme måte som ved on-policy Monte Carlo-kontroll, krever det vanligvis en gradvis reduksjon av over tid, som til slutt nærmer seg null for å gå fra utforskning til utnyttelse. Denne prosessen er ofte treg og kan kreve omfattende treningstid. Et alternativ er å bruke en off-policy metode som Q-learning.
Q-learning er en off-policy TD-kontrollalgoritme som brukes til å estimere den optimale aksjonsverdifunksjonen . Den oppdaterer sine estimater basert på den nåværende beste handlingen, noe som gjør den til en off-policy algoritme.
Oppdateringsregel
I motsetning til off-policy Monte Carlo-kontroll, krever ikke Q-learning importance sampling for å korrigere for forskjeller mellom atferds- og målpolitikk. I stedet benytter den en direkte oppdateringsregel som ligner på SARSA, men med en viktig forskjell.
Oppdateringsregelen for Q-learning er:
Den eneste forskjellen fra SARSA ligger i målverdien. I stedet for å bruke verdien av den neste handlingen som faktisk ble valgt, slik SARSA gjør:
benytter Q-learning verdien av den beste mulige neste handlingen:
Denne subtile endringen har stor betydning: den gjør det mulig for Q-learning å evaluere handlinger ved hjelp av et estimat av den optimale politikken, selv mens agenten fortsatt utforsker. Det er dette som gjør det til en off-policy-metode — den lærer om den grådige politikken, uavhengig av hvilke handlinger som velges under trening.
Når bør Q-learning brukes?
Q-learning er å foretrekke når:
- Du arbeider med deterministiske miljøer, eller miljøer;
- Du har behov for raskere konvergenshastighet.
Takk for tilbakemeldingene dine!