Q-læring: Off-Policy TD-Læring
Å lære en optimal policy med SARSA kan være utfordrende. På samme måte som ved on-policy Monte Carlo-kontroll, krever det vanligvis en gradvis reduksjon av ε over tid, som til slutt nærmer seg null for å gå fra utforskning til utnyttelse. Denne prosessen er ofte treg og kan kreve omfattende treningstid. Et alternativ er å bruke en off-policy metode som Q-learning.
Q-learning er en off-policy TD-kontrollalgoritme som brukes til å estimere den optimale aksjonsverdifunksjonen q∗(s,a). Den oppdaterer sine estimater basert på den nåværende beste handlingen, noe som gjør den til en off-policy algoritme.
Oppdateringsregel
I motsetning til off-policy Monte Carlo-kontroll, krever ikke Q-learning importance sampling for å korrigere for forskjeller mellom atferds- og målpolitikk. I stedet benytter den en direkte oppdateringsregel som ligner på SARSA, men med en viktig forskjell.
Oppdateringsregelen for Q-learning er:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Den eneste forskjellen fra SARSA ligger i målverdien. I stedet for å bruke verdien av den neste handlingen som faktisk ble valgt, slik SARSA gjør:
γQ(St+1,At+1)benytter Q-learning verdien av den beste mulige neste handlingen:
γamaxQ(St+1,a)Denne subtile endringen har stor betydning: den gjør det mulig for Q-learning å evaluere handlinger ved hjelp av et estimat av den optimale politikken, selv mens agenten fortsatt utforsker. Det er dette som gjør det til en off-policy-metode — den lærer om den grådige politikken, uavhengig av hvilke handlinger som velges under trening.
Når bør Q-learning brukes?
Q-learning er å foretrekke når:
- Du arbeider med deterministiske miljøer, eller miljøer;
- Du har behov for raskere konvergenshastighet.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Q-læring: Off-Policy TD-Læring
Sveip for å vise menyen
Å lære en optimal policy med SARSA kan være utfordrende. På samme måte som ved on-policy Monte Carlo-kontroll, krever det vanligvis en gradvis reduksjon av ε over tid, som til slutt nærmer seg null for å gå fra utforskning til utnyttelse. Denne prosessen er ofte treg og kan kreve omfattende treningstid. Et alternativ er å bruke en off-policy metode som Q-learning.
Q-learning er en off-policy TD-kontrollalgoritme som brukes til å estimere den optimale aksjonsverdifunksjonen q∗(s,a). Den oppdaterer sine estimater basert på den nåværende beste handlingen, noe som gjør den til en off-policy algoritme.
Oppdateringsregel
I motsetning til off-policy Monte Carlo-kontroll, krever ikke Q-learning importance sampling for å korrigere for forskjeller mellom atferds- og målpolitikk. I stedet benytter den en direkte oppdateringsregel som ligner på SARSA, men med en viktig forskjell.
Oppdateringsregelen for Q-learning er:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Den eneste forskjellen fra SARSA ligger i målverdien. I stedet for å bruke verdien av den neste handlingen som faktisk ble valgt, slik SARSA gjør:
γQ(St+1,At+1)benytter Q-learning verdien av den beste mulige neste handlingen:
γamaxQ(St+1,a)Denne subtile endringen har stor betydning: den gjør det mulig for Q-learning å evaluere handlinger ved hjelp av et estimat av den optimale politikken, selv mens agenten fortsatt utforsker. Det er dette som gjør det til en off-policy-metode — den lærer om den grådige politikken, uavhengig av hvilke handlinger som velges under trening.
Når bør Q-learning brukes?
Q-learning er å foretrekke når:
- Du arbeider med deterministiske miljøer, eller miljøer;
- Du har behov for raskere konvergenshastighet.
Takk for tilbakemeldingene dine!