Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Off-policy Monte Carlo-controle
Waar on-policy methoden leren door hetzelfde beleid te volgen en te verbeteren, introduceren off-policy methoden een variatie: ze leren over het ene beleid (het doelbeleid) terwijl ze een ander beleid volgen (het gedragsbeleid). Deze scheiding is krachtig — het stelt ons in staat om een doelbeleid te evalueren of te verbeteren zonder het daadwerkelijk te hoeven volgen tijdens het verzamelen van data.
Analogie
Laten we teruggaan naar de ijssalon uit het vorige hoofdstuk. Jij en je vriend lopen naar binnen, en opnieuw zijn de drie bekende smaken beschikbaar: chocolade, vanille en aardbei. Chocolade is jouw persoonlijke favoriet, en je eerste neiging is om deze te bestellen. Maar deze winkel is nieuw voor je, en je weet niet zeker of chocolade de juiste keuze is. Gelukkig is je vriend een bekende ijsliefhebber die bijna elke zaak in de stad heeft bezocht. Je vraagt om hun mening. "Chocolade is hier prima," zegt je vriend, "maar geloof me — de aardbei is uitzonderlijk." Dus, op basis van hun ervaring, besluit je je gebruikelijke keuze over te slaan en in plaats daarvan voor aardbei te gaan.
Die beslissing — vertrouwen op de ervaring van iemand anders om je eigen keuze te sturen — is de essentie van off-policy methoden. Je probeert je besluitvorming te verbeteren met gegevens die zijn verzameld op basis van het gedrag van iemand anders. Het blijft verkennen — maar het wordt geleid door externe ervaring in plaats van je eigen.
Importance Sampling
Omdat de agent het gedragsbeleid volgt tijdens het genereren van episodes, moeten we rekening houden met het verschil tussen wat het gedragsbeleid genereert en wat het doelbeleid zou genereren. Dit is waar importance sampling van pas komt.
Belangrijksheidsweging biedt een methode om de opbrengsten die zijn waargenomen onder het gedragspolicy aan te passen, zodat ze geldige schattingen zijn voor het doelpolicy.
Beschouw een traject dat begint vanuit een bepaalde toestand en een bepaalde policy volgt totdat de episode eindigt op tijdstip . Specifiek observeren we:
Wat is nu de kans dat dit traject zich voordoet onder een policy ? Dit hangt af van zowel de actieprobabiliteiten van de policy als de overgangsdynamiek van de omgeving:
Stel nu dat het traject daadwerkelijk is gegenereerd door een andere policy — het gedragspolicy . Om dit traject correct te gebruiken voor het schatten van verwachtingen onder het doelpolicy , moeten we rekening houden met hoe veel waarschijnlijker of minder waarschijnlijk deze reeks acties zou zijn onder vergeleken met .
Hier komt de belangrijksheidsweging-ratio in beeld. Deze wordt gedefinieerd als de relatieve waarschijnlijkheid van het traject onder de twee policies:
Uiteindelijk vallen de overgangswaarschijnlijkheden weg, omdat beide policies in dezelfde omgeving opereren, en de waarde van hangt alleen af van de policies, niet van de omgeving.
Waarom Dit Belangrijk Is
De ratio geeft aan hoe de opbrengst die is waargenomen onder het gedragspolicy moet worden herwogen zodat het een onvertekende schatting wordt van wat de opbrengst zou zijn geweest onder het doelpolicy:
Met andere woorden, ook al zijn de gegevens verzameld met , kunnen we nog steeds de verwachte opbrengsten onder schatten — mits een niet-nul kans toekent aan elke actie die zou kunnen nemen (de dekkingsaanname).
Praktische Overwegingen
Varianties bij Importance Sampling
Het toepassen van importance sampling is conceptueel eenvoudig. De geschatte actie-waardefunctie wordt aangepast door elke waargenomen opbrengst te wegen met de bijbehorende importance sampling-ratio. De eenvoudigste formulering is als volgt:
waarbij:
- de importance sampling-ratio is voor de -de traject vanaf ;
- de opbrengst is van dat traject;
- het aantal keren is dat is bezocht.
Dit staat bekend als gewone importance sampling. Het levert een onbevooroordeelde schatting van , maar kan lijden onder zeer hoge variantie, vooral wanneer het gedrag- en doelbeleid sterk van elkaar verschillen.
Om het variantieprobleem te beperken, kan een stabieler alternatief worden gebruikt: gewogen importance sampling. Deze methode normaliseert de importance-gewichten, waardoor de invloed van grote ratio's wordt verminderd en het leren stabieler wordt:
In deze versie is de teller dezelfde gewogen som van opbrengsten, maar de noemer is nu de som van de importance-gewichten in plaats van een eenvoudige telling.
Hierdoor wordt de schatting bevooroordeeld, maar deze bias neemt af naarmate er meer steekproeven worden verzameld. In de praktijk heeft gewogen importance sampling de voorkeur vanwege de aanzienlijk lagere variantie en grotere numerieke stabiliteit.
Beleid
Net als in het on-policy geval gebruiken we -greedy beleid voor zowel het doelbeleid als het gedragsbeleid .
Op het eerste gezicht lijkt het logisch om het doelbeleid volledig greedy te maken — uiteindelijk is ons doel een greedy beleid. In de praktijk veroorzaakt dit echter een groot probleem: als op enig moment voor de actie die daadwerkelijk werd uitgevoerd door het gedragsbeleid, wordt de importance sampling-ratio nul en wordt het resterende deel van de episode effectief genegeerd.
Door een kleine (bijvoorbeeld ) te gebruiken in het doelbeleid, zorgen we ervoor dat voor elke actie, zodat nooit midden in een episode naar nul zakt. Zodra de training is voltooid, is het eenvoudig om het geleerde -greedy beleid om te zetten naar een strikt greedy beleid. Net als bij on-policy leren, moet in het gedragsbeleid worden afgebouwd, maar deze keer is dat vooral voor numerieke stabiliteit, omdat nog steeds naar nul kan dalen tijdens een episode, vanwege de manier waarop getallen in computers worden weergegeven.
Pseudocode
Bedankt voor je feedback!