Kursinnehåll
Introduktion till Förstärkningsinlärning
Introduktion till Förstärkningsinlärning
On-Policy Monte Carlo-Kontroll
Idén bakom on-policy-metoder är intuitiv: en agent lär sig genom att följa sin nuvarande policy och förbättrar den policyn baserat på de utfall den upplever. För att upptäcka bättre handlingar och undvika att fastna i suboptimalt beteende inför agenten en viss grad av slumpmässighet — ibland testas alternativa handlingar för att uppmuntra utforskning.
Analogi
Föreställ dig att du är på en glassbar och det finns tre smaker tillgängliga: chocolate, vanilla och strawberry. Du älskar chocolate, så det är oftast det du väljer. Men en dag, av nyfikenhet, bestämmer du dig för att prova strawberry istället. Det visar sig att strawberry-glassen på detta ställe är otroligt god, och du bestämmer dig för att välja den varje gång du besöker glassbaren.
Att prova en ny smak var kanske inte det mest logiska valet baserat på tidigare erfarenheter, men det gav möjlighet att upptäcka något nytt. Denna typ av utforskande är kärnan i on-policy-metoder.
Stokastiska policys
Formellt innebär detta att de deterministiska (hårda) policys som används i dynamisk programmering ersätts med stokastiska (mjuka) policys, betecknade som , där:
Med andra ord har varje handling i varje tillstånd en icke-noll sannolikhet att väljas. Detta säkerställer att alla delar av miljön så småningom kan utforskas, vilket är avgörande vid inlärning från erfarenhet.
-giriga policys
För att införa utforskning i policyn, låt oss använda konceptet -girig utforskning från multiarmade banditproblemet. Detta gör det möjligt för oss att definiera en stokastisk policy som balanserar mellan att utnyttja den bästa kända åtgärden och att utforska alternativ:
Denna policy beter sig girigt för det mesta — väljer åtgärden med högst uppskattat värde — men med sannolikheten väljs en slumpmässig åtgärd, vilket säkerställer att alla åtgärder har en icke-noll sannolikhet att väljas (även den giriga igen, via uniform sampling).
Vid första anblick kan detta tillvägagångssätt verka problematiskt: eftersom policyn aldrig blir helt girig kommer den aldrig att konvergera till exakt optimal policy. Därför uppfyller den inte strikt villkoren för GPI om vi förväntar oss exakt optimalitet i gränsen.
Dock kräver GPI inte att policyn blir optimal omedelbart — det krävs bara att varje policy förbättras (eller förblir densamma) jämfört med den föregående, och gradvis närmar sig optimalitet. -girig policy uppfyller detta villkor: den förbättrar policyn i genomsnitt och säkerställer kontinuerlig utforskning för bättre uppskattningar.
För att hantera problemet med konvergens till den verkligt optimala policyn kan vi gradvis minska över tid. Denna strategi gör att policyn blir alltmer girig i takt med att inlärningen fortskrider. I de tidiga stadierna hjälper utforskning till att samla varierad erfarenhet, medan agenten i senare stadier utnyttjar sin förbättrade kunskap. Med en korrekt avtagande konvergerar metoden till en optimal policy i gränsen.
Pseudokod
Tack för dina kommentarer!