Lära Off-Policy Monte Carlo-Kontroll

Medan on-policy-metoder lär sig genom att följa och förbättra samma policy, introducerar off-policy-metoder en variation: de lär sig om en policy (målpolicyn) medan de följer en annan (beteendepolicyn). Denna uppdelning är kraftfull — det möjliggör utvärdering eller förbättring av en målpolicy utan att behöva följa den under datainsamlingen.

Liknelse

Låt oss återvända till glassbaren från föregående kapitel. Du och din vän går in, och återigen erbjuds de tre välbekanta smakerna: choklad, vanilj och jordgubb. Choklad är din personliga favorit, och din första instinkt är att beställa den. Men denna glassbar är ny för dig, och du är inte helt säker på om choklad är rätt val. Som tur är har din vän besökt nästan alla glassbarer i staden och är en framstående glassälskare. Du frågar om deras åsikt. "Chokladen här är okej," säger de, "men lita på mig — jordgubben är exceptionell." Så, baserat på deras erfarenhet, bestämmer du dig för att hoppa över ditt vanliga val och istället välja jordgubb.

Det beslutet — att förlita sig på någon annans erfarenhet för att vägleda ditt eget val — är kärnan i off-policy-metoder. Du försöker förbättra ditt beslutsfattande med data som samlats in under någon annans beteende. Det är fortfarande utforskning — men det styrs av extern erfarenhet snarare än din egen.

Viktad stickprovsmetod

Eftersom agenten följer beteendepolicyn under episodgenerering måste vi ta hänsyn till skillnaden mellan vad beteendepolicyn genererar och vad målpolicyn skulle generera. Det är här viktad stickprovsmetod kommer in.

Viktighetsprovtagning tillhandahåller ett sätt att justera de utfall som observerats under beteendepolicyn så att de blir giltiga uppskattningar för målpolicyn.

Låt oss titta på en trajektoria som börjar från ett visst tillstånd $S_t$ och följer en viss policy $\pi$ tills episoden avslutas vid tidpunkt $T$ . Specifikt observerar vi:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Vad är sannolikheten att denna trajektoria inträffar under en policy $\pi$ ? Det beror på både policyns sannolikheter för handlingar och miljöns övergångsdynamik:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Antag nu att trajektorien faktiskt genererades av en annan policy — beteendepolicyn $b$ . För att korrekt använda denna trajektoria för att uppskatta förväntningar under målpolicyn $\pi$ måste vi ta hänsyn till hur mycket mer eller mindre sannolik denna sekvens av handlingar skulle ha varit under $\pi$ jämfört med $b$ .

Det är här viktighetsprovtagningskvoten kommer in. Den definieras som den relativa sannolikheten för trajektorien under de två policyerna:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

I slutändan tar övergångssannolikheterna ut varandra, eftersom båda policyerna verkar i samma miljö, och värdet på $\rho$ beror endast på policyerna, inte på miljön.

Varför detta är viktigt

Kvoten $\rho$ anger hur vi ska omviktas utfall $G_t$ som observerats under beteendepolicyn så att det blir en snedfri uppskattning av vad utfallet skulle ha varit under målpolicyn:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Med andra ord, även om data samlades in med hjälp av $b$ , kan vi ändå uppskatta förväntade utfall under $\pi$ — förutsatt att $b$ ger icke-noll sannolikhet till varje handling som $\pi$ kan välja (antagande om täckning).

Praktiska överväganden

Varians vid viktad sannolikhetsprovtagning

Att inkludera viktad sannolikhetsprovtagning är konceptuellt enkelt. Vi justerar den uppskattade aktionsvärdesfunktionen $q(s, a)$ genom att vikta varje observerad avkastning med motsvarande viktad sannolikhetskvot. Den enklaste formuleringen ser ut så här:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

Där:

$\rho_i(s, a)$ är viktad sannolikhetskvot för den $i$ :te banan som börjar från $(s, a)$ ;
$Returns_i(s, a)$ är avkastningen från den banan;
$N(s, a)$ är antalet gånger $(s, a)$ har besökts.

Detta kallas ordinär viktad sannolikhetsprovtagning. Det ger en oberoende skattning av $q(s, a)$ , men kan drabbas av mycket hög varians, särskilt när beteende- och målpolicyn skiljer sig avsevärt.

För att minska variansen kan vi använda ett mer stabilt alternativ: normaliserad viktad sannolikhetsprovtagning. Denna metod normaliserar vikterna, vilket minskar påverkan av stora kvoter och leder till mer stabil inlärning:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

I denna version är täljaren samma viktade summa av avkastningar, men nämnaren är nu summan av vikterna, istället för ett enkelt antal.

Detta gör skattningen sned, men snedheten minskar när fler prover samlas in. I praktiken föredras normaliserad viktad sannolikhetsprovtagning på grund av dess betydligt lägre varians och större numerisk stabilitet.

Policys

Precis som i on-policy-fallet används $\varepsilon$ -giriga policys för både målpolicyn $\pi(a | s)$ och beteendepolicyn $b(a | s)$ .

Vid första anblick verkar det naturligt att göra målpolicyn helt girig — vårt slutgiltiga mål är trots allt en girig policy. I praktiken orsakar detta dock ett stort problem: om vid något steg $\pi(a | s) = 0$ för den åtgärd som faktiskt valdes av beteendepolicyn, blir viktningen $\rho$ noll och återstående delen av episoden ignoreras effektivt.

Genom att använda ett litet $\varepsilon$ (t.ex. $\varepsilon = 0.01$ ) i målpolicyn säkerställs att $\pi(a | s) > 0$ för varje åtgärd, så att $\rho$ aldrig blir noll mitt i en episod. När träningen är klar är det trivialt att konvertera den inlärda $\varepsilon$ -giriga policyn till en strikt girig policy. Precis som vid on-policy-inlärning bör avtagande $\varepsilon$ användas i beteendepolicyn, men denna gång är det främst för numerisk stabilitet, eftersom $\rho$ fortfarande kan bli noll mitt i en episod på grund av hur tal representeras i datorer.

Pseudokod

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 6

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain the difference between ordinary and weighted importance sampling in more detail?

Why does using a fully greedy target policy cause problems in off-policy learning?

Can you summarize the key advantages of off-policy methods compared to on-policy methods?

Svep för att visa menyn