Kursusindhold
Introduktion til Reinforcement Learning
Introduktion til Reinforcement Learning
Off-Policy Monte Carlo-Kontrol
Mens on-policy metoder lærer ved at følge og forbedre den samme politik, introducerer off-policy metoder en variation: de lærer om én politik (målpolitikken), mens de følger en anden (adfærdspolitikken). Denne adskillelse er kraftfuld — det gør det muligt at evaluere eller forbedre en målpolitik uden faktisk at skulle følge den under dataindsamlingen.
Analogi
Lad os vende tilbage til isbutikken fra det forrige kapitel. Du og din ven går ind, og igen er de tre velkendte smagsvarianter tilgængelige: chokolade, vanilje og jordbær. Chokolade er din personlige favorit, og din første indskydelse er at bestille den. Men denne butik er ny for dig, og du er ikke helt sikker på, om det er det rigtige valg. Heldigvis er din ven en fremtrædende iselsker, der har besøgt næsten alle butikker i byen. Du spørger om deres mening. "Chokoladen her er okay," siger de, "men tro mig — jordbærisen er enestående." Så baseret på deres erfaring vælger du at springe din sædvanlige favorit over og i stedet tage jordbær.
Den beslutning — at stole på andres erfaring for at vejlede dit eget valg — er essensen af off-policy metoder. Du forsøger at forbedre din beslutningstagning ved at bruge data indsamlet under en andens adfærd. Det er stadig udforskning — men det er styret af ekstern erfaring i stedet for din egen.
Importance Sampling
Fordi agenten følger adfærds-politikken under generering af episoder, skal vi tage højde for forskellen mellem hvad adfærds-politikken genererer og hvad mål-politikken ville generere. Det er her, importance sampling kommer ind i billedet.
Importance sampling giver en metode til at justere de afkast, der observeres under adfærdsstrategien, så de er gyldige estimater for målstrategien.
Lad os se på en sekvens, der starter fra en bestemt tilstand og følger en bestemt strategi , indtil episoden afsluttes på tidspunkt . Specifikt observerer vi:
Hvad er sandsynligheden for, at denne sekvens opstår under en strategi ? Det afhænger både af strategiens handlingssandsynligheder og miljøets overgangsdynamik:
Antag nu, at sekvensen faktisk blev genereret af en anden strategi — adfærdsstrategien . For korrekt at bruge denne sekvens til at estimere forventninger under målstrategien , skal vi tage højde for, hvor meget mere eller mindre sandsynlig denne rækkefølge af handlinger ville have været under sammenlignet med .
Her kommer importance sampling-forholdet ind i billedet. Det defineres som den relative sandsynlighed for sekvensen under de to strategier:
Til sidst udlignes overgangssandsynlighederne, da begge strategier opererer i det samme miljø, og værdien af afhænger kun af strategierne, ikke af miljøet.
Hvorfor dette er vigtigt
Forholdet angiver, hvordan vi skal omvægte afkastet observeret under adfærdsstrategien, så det bliver et forventningsret estimat af, hvad afkastet ville have været under målstrategien:
Med andre ord, selvom dataene blev indsamlet ved hjælp af , kan vi stadig estimere forventede afkast under — forudsat at giver ikke-nul sandsynlighed til enhver handling, som kunne vælge (antagelse om dækning).
Praktiske Overvejelser
Varians ved Importance Sampling
Inkorporering af importance sampling er konceptuelt ligetil. Vi justerer den estimerede handlingsværdifunktion ved at vægte hver observeret returnering med den tilsvarende importance sampling-ratio. Den simpleste formulering ser således ud:
hvor:
- er importance sampling-ratioen for den -te sekvens, der starter fra ;
- er returneringen fra den sekvens;
- er antallet af gange er blevet besøgt.
Dette kaldes ordinær importance sampling. Det giver et unbiased estimat af , men kan have meget høj varians, især når adfærds- og målfunktionerne adskiller sig markant.
For at mindske variansen kan vi anvende et mere stabilt alternativ: vægtet importance sampling. Denne metode normaliserer importance-vægtene, hvilket reducerer effekten af store ratioer og fører til mere stabil indlæring:
I denne version er tælleren den samme vægtede sum af returneringer, men nævneren er nu summen af importance-vægtene i stedet for blot et simpelt antal.
Dette gør estimatet biased, men biasen mindskes, efterhånden som flere prøver indsamles. I praksis foretrækkes vægtet importance sampling på grund af dens markant lavere varians og større numerisk stabilitet.
Politikker
Ligesom i on-policy-tilfældet anvendes -grådige politikker for både målpolitikken og adfærdspolitikken .
Ved første øjekast virker det naturligt at gøre målpolitikken fuldstændig grådig — vores ultimative mål er trods alt en grådig politik. I praksis medfører dette dog et stort problem: hvis for den handling, der faktisk blev udført af adfærdspolitikken, bliver importance sampling-forholdet nul, og resten af episoden bliver reelt ignoreret.
Ved at anvende en lille (f.eks. ) i målpolitikken sikres det, at for enhver handling, så aldrig kollapser til nul midt i episoden. Når træningen er afsluttet, er det trivielt at konvertere den lærte ‑grådige politik til en strengt grådig politik. Som ved on-policy-læring bør aftage i adfærdspolitikken, men denne gang er det primært for numerisk stabilitet, da stadig kan falde til nul midt i episoden på grund af, hvordan tal repræsenteres i computere.
Pseudokode
Tak for dine kommentarer!