Leer Off-Policy Monte Carlo-controle

Waar on-policy methoden leren door hetzelfde beleid te volgen en te verbeteren, introduceren off-policy methoden een variatie: ze leren over het ene beleid (het doelbeleid) terwijl ze een ander beleid volgen (het gedragsbeleid). Deze scheiding is krachtig — het stelt ons in staat om een doelbeleid te evalueren of te verbeteren zonder het daadwerkelijk te hoeven volgen tijdens het verzamelen van data.

Analogie

Laten we teruggaan naar de ijssalon uit het vorige hoofdstuk. Jij en je vriend lopen naar binnen, en opnieuw zijn de drie bekende smaken beschikbaar: chocolade, vanille en aardbei. Chocolade is jouw persoonlijke favoriet, en je eerste instinct is om deze te bestellen. Maar deze winkel is nieuw voor je, en je weet niet zeker of chocolade de juiste keuze is. Gelukkig is je vriend een bekende ijsliefhebber die bijna elke zaak in de stad heeft bezocht. Je vraagt om hun mening. "Chocolade is hier oké," zegt je vriend, "maar geloof me — de aardbei is uitzonderlijk." Op basis van hun ervaring besluit je je gebruikelijke keuze over te slaan en in plaats daarvan voor aardbei te gaan.

Die beslissing — vertrouwen op de ervaring van iemand anders om je eigen keuze te sturen — is de essentie van off-policy methoden. Je probeert je besluitvorming te verbeteren met gegevens die zijn verzameld op basis van het gedrag van een ander. Het blijft exploratie — maar het wordt geleid door externe ervaring in plaats van je eigen.

Importance Sampling

Omdat de agent het gedragsbeleid volgt tijdens het genereren van episodes, moeten we rekening houden met het verschil tussen wat het gedragsbeleid genereert en wat het doelbeleid zou genereren. Dit is waar importance sampling van pas komt.

Importance sampling biedt een methode om de opbrengsten die zijn waargenomen onder het gedragbeleid aan te passen, zodat ze geldige schattingen zijn voor het doelbeleid.

Beschouw een traject dat begint vanuit een bepaalde toestand $S_t$ en een bepaald beleid $\pi$ volgt totdat de episode eindigt op tijdstip $T$ . We observeren specifiek:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Wat is nu de kans dat dit traject zich voordoet onder een beleid $\pi$ ? Dit hangt af van zowel de actieprobabiliteiten van het beleid als de transitiedynamiek van de omgeving:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Stel nu dat het traject daadwerkelijk is gegenereerd door een ander beleid — het gedragbeleid $b$ . Om dit traject correct te gebruiken voor het schatten van verwachtingen onder het doelbeleid $\pi$ , moeten we rekening houden met hoe veel waarschijnlijker of minder waarschijnlijk deze reeks acties zou zijn onder $\pi$ vergeleken met $b$ .

Hier komt de importance sampling-ratio in beeld. Deze wordt gedefinieerd als de relatieve waarschijnlijkheid van het traject onder de twee beleids:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Uiteindelijk vallen de overgangswaarschijnlijkheden weg, omdat beide beleids in dezelfde omgeving opereren, en de waarde van $\rho$ hangt alleen af van de beleids, niet van de omgeving.

Waarom Dit Belangrijk Is

De ratio $\rho$ geeft aan hoe de opbrengst $G_t$ die is waargenomen onder het gedragbeleid moet worden herwogen, zodat het een onvertekende schatting wordt van wat de opbrengst zou zijn geweest onder het doelbeleid:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Met andere woorden, ook al zijn de gegevens verzameld met $b$ , kunnen we nog steeds de verwachte opbrengsten onder $\pi$ schatten — mits $b$ een niet-nul kans toekent aan elke actie die $\pi$ zou kunnen nemen (de dekkingsaanname).

Praktische Overwegingen

Varianties bij Importance Sampling

Het toepassen van importance sampling is conceptueel eenvoudig. De geschatte actie-waardefunctie $q(s, a)$ wordt aangepast door elke waargenomen opbrengst te wegen met de bijbehorende importance sampling-ratio. De eenvoudigste formulering is als volgt:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

waarbij:

$\rho_i(s, a)$ de importance sampling-ratio is voor de $i$ -de traject vanaf $(s, a)$ ;
$Returns_i(s, a)$ de opbrengst is van dat traject;
$N(s, a)$ het aantal keren is dat $(s, a)$ is bezocht.

Dit staat bekend als gewone importance sampling. Het levert een onbevooroordeelde schatting van $q(s, a)$ , maar kan lijden onder zeer hoge variantie, vooral wanneer het gedrag- en doelbeleid sterk van elkaar verschillen.

Om het variantieprobleem te beperken, kan een stabieler alternatief worden gebruikt: gewogen importance sampling. Deze methode normaliseert de importance-gewichten, waardoor de invloed van grote ratio's wordt verminderd en het leerproces stabieler wordt:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

In deze versie is de teller dezelfde gewogen som van opbrengsten, maar de noemer is nu de som van de importance-gewichten, in plaats van een eenvoudige telling.

Hierdoor wordt de schatting bevooroordeeld, maar deze bias neemt af naarmate er meer steekproeven worden verzameld. In de praktijk heeft gewogen importance sampling de voorkeur vanwege de aanzienlijk lagere variantie en grotere numerieke stabiliteit.

Beleidsregels

Net als in het on-policy geval gebruiken we $\varepsilon$ -greedy beleidsregels voor zowel de doelbeleidsregel $\pi(a | s)$ als de gedragsbeleidsregel $b(a | s)$ .

Op het eerste gezicht lijkt het logisch om de doelbeleidsregel volledig greedy te maken — uiteindelijk is ons doel een greedy beleidsregel. In de praktijk veroorzaakt dit echter een groot probleem: als op enig moment $\pi(a | s) = 0$ voor de actie die daadwerkelijk door de gedragsbeleidsregel is gekozen, wordt de importance sampling-verhouding $\rho$ nul en wordt het resterende deel van de episode feitelijk genegeerd.

Door een kleine $\varepsilon$ (bijvoorbeeld $\varepsilon = 0.01$ ) te gebruiken in de doelbeleidsregel, zorgen we ervoor dat $\pi(a | s) > 0$ voor elke actie, zodat $\rho$ nooit midden in een episode naar nul zakt. Zodra de training is voltooid, is het eenvoudig om de geleerde $\varepsilon$ -greedy beleidsregel om te zetten naar een strikt greedy variant. Net als bij on-policy leren, moet $\varepsilon$ in de gedragsbeleidsregel worden afgebouwd, maar dit is nu vooral voor numerieke stabiliteit, omdat $\rho$ nog steeds naar nul kan dalen tijdens een episode, vanwege de manier waarop getallen in computers worden weergegeven.

Pseudocode

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 6

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen