Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
Off-Policy Monte Carlo-Kontroll
Medan on-policy-metoder lär sig genom att följa och förbättra samma policy, introducerar off-policy-metoder en variation: de lär sig om en policy (målpolicyn) samtidigt som de följer en annan (beteendepolicyn). Denna uppdelning är kraftfull — det möjliggör utvärdering eller förbättring av en målpolicy utan att behöva följa den under datainsamlingen.
Liknelse
Låt oss återvända till glassbaren från föregående kapitel. Du och din vän går in, och återigen erbjuds de tre välbekanta smakerna: choklad, vanilj och jordgubb. Choklad är din personliga favorit, och din första instinkt är att beställa den. Men denna butik är ny för dig, och du är inte helt säker på om choklad är rätt val. Som tur är har din vän, en framstående glassälskare, besökt nästan alla glassbarer i staden. Du frågar om deras åsikt. "Chokladen här är okej," säger de, "men lita på mig — jordgubben är enastående." Så, baserat på deras erfarenhet, bestämmer du dig för att hoppa över ditt vanliga val och istället välja jordgubb.
Det beslutet — att förlita sig på någon annans erfarenhet för att vägleda ditt eget val — är kärnan i off-policy-metoder. Du försöker förbättra ditt beslutsfattande med hjälp av data som samlats in under någon annans beteende. Det är fortfarande utforskning — men det styrs av extern erfarenhet snarare än din egen.
Viktighetsprovtagning
Eftersom agenten följer beteendepolicyn under episodgenerering måste vi ta hänsyn till skillnaden mellan vad beteendepolicyn genererar och vad målpolicyn skulle generera. Det är här viktighetsprovtagning kommer in.
Viktighetsprovtagning tillhandahåller ett sätt att justera de avkastningar som observerats under beteendepolicyn så att de blir giltiga uppskattningar för målpolicyn.
Låt oss titta på en trajektoria som börjar från ett visst tillstånd och följer en viss policy tills episoden avslutas vid tidpunkt . Specifikt observerar vi:
Vad är sannolikheten att denna trajektoria inträffar under en policy ? Det beror på både policyns sannolikheter för handlingar och miljöns övergångsdynamik:
Antag nu att trajektorien faktiskt genererades av en annan policy — beteendepolicyn . För att korrekt använda denna trajektoria för att uppskatta förväntningar under målpolicyn , måste vi ta hänsyn till hur mycket mer eller mindre sannolik denna sekvens av handlingar skulle ha varit under jämfört med .
Det är här viktighetsprovtagningskvoten kommer in. Den definieras som den relativa sannolikheten för trajektorien under de två policyerna:
I slutändan försvann övergångssannolikheterna, eftersom båda policyerna verkar i samma miljö, och värdet på beror endast på policyerna, inte på miljön.
Varför detta är viktigt
Kvoten anger hur vi ska omviktas avkastningen som observerats under beteendepolicyn så att den blir en snedfri uppskattning av vad avkastningen skulle ha varit under målpolicyn:
Med andra ord, även om data samlades in med hjälp av , kan vi fortfarande uppskatta förväntad avkastning under — förutsatt att ger icke-noll sannolikhet till varje handling som kan välja (täkningsantagandet).
Praktiska överväganden
Varians vid viktad sannolikhetsprovtagning
Att inkludera viktad sannolikhetsprovtagning är konceptuellt enkelt. Vi justerar den uppskattade aktionsvärdesfunktionen genom att vikta varje observerad avkastning med motsvarande viktad sannolikhetskvot. Den enklaste formuleringen ser ut så här:
där:
- är viktad sannolikhetskvot för den :te banan som börjar från ;
- är avkastningen från den banan;
- är antalet gånger har besökts.
Detta kallas ordinär viktad sannolikhetsprovtagning. Det ger en oberoende skattning av , men kan drabbas av mycket hög varians, särskilt när beteende- och målpolicyn skiljer sig avsevärt.
För att mildra variansproblemet kan vi använda ett mer stabilt alternativ: normaliserad viktad sannolikhetsprovtagning. Denna metod normaliserar vikterna, vilket minskar påverkan av stora kvoter och leder till mer stabil inlärning:
I denna version är täljaren samma viktade summa av avkastningar, men nämnaren är nu summan av vikterna, istället för en enkel räkning.
Detta gör skattningen snedvriden, men snedvridningen minskar när fler prover samlas in. I praktiken föredras normaliserad viktad sannolikhetsprovtagning på grund av dess betydligt lägre varians och större numerisk stabilitet.
Policys
Precis som i on-policy-fallet, använd -giriga policys för både målpolicyn och beteendepolicyn .
Vid första anblicken verkar det naturligt att göra målpolicyn helt girig — vårt slutgiltiga mål är trots allt en girig policy. I praktiken orsakar detta dock ett stort problem: om vid något steg för den åtgärd som faktiskt valdes av beteendepolicyn, blir viktade urvalskvoten noll och återstående delen av episoden ignoreras effektivt.
Genom att använda ett litet (t.ex. ) i målpolicyn säkerställs att för varje åtgärd, så att aldrig blir noll mitt i en episod. När träningen är klar är det enkelt att konvertera den inlärda -giriga policyn till en strikt girig policy. Precis som vid on-policy-inlärning bör avtagande användas i beteendepolicyn, men denna gång är det främst för numerisk stabilitet, eftersom fortfarande kan bli noll mitt i en episod på grund av hur tal representeras i datorer.
Pseudokod
Tack för dina kommentarer!