On-Policy Monte Carlo-Kontroll
Idén bakom on-policy-metoder är intuitiv: en agent lär sig genom att följa sin nuvarande policy och förbättrar denna policy baserat på de utfall den upplever. För att upptäcka bättre handlingar och undvika att fastna i suboptimalt beteende, inför agenten en viss grad av slumpmässighet — ibland prövas alternativa handlingar för att uppmuntra utforskning.
Analogi
Föreställ dig att du är på en glassbar och det finns tre smaker tillgängliga: choklad, vanilj och jordgubb. Du älskar choklad, så det är oftast det du väljer. Men en dag, av nyfikenhet, bestämmer du dig för att prova jordgubb istället. Det visar sig att jordgubbsglassen på denna glassbar är otroligt god, och du bestämmer dig för att välja den varje gång du besöker denna glassbar.
Att prova en ny smak var kanske inte det mest logiska valet baserat på tidigare erfarenheter, men det gav dig möjlighet att upptäcka något nytt. Och denna typ av utforskande är kärnan i on-policy-metoder.
Stokastiska policys
Formellt innebär detta att man ersätter de deterministiska (hårda) policys som används i dynamisk programmering med stokastiska (mjuka) policys, betecknade som π(a∣s), där:
π(a∣s)>0∀s∈S,a∈A(s)Med andra ord har varje handling i varje tillstånd en icke-noll sannolikhet att väljas. Detta säkerställer att alla delar av miljön så småningom kan utforskas, vilket är avgörande när man lär sig av erfarenhet.
ε-giriga policys
För att införliva utforskning i policyn, låt oss använda konceptet ε-girig utforskning från multiarmade banditproblemet. Detta gör det möjligt att definiera en stokastisk policy som balanserar mellan att utnyttja den bästa kända åtgärden och att utforska alternativ:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εom a=a′argmaxqπ(s,a′)annarsDenna policy agerar girigt för det mesta — väljer åtgärden med det högsta uppskattade värdet — men med sannolikheten ε väljs en slumpmässig åtgärd, vilket säkerställer att alla åtgärder har en icke-noll sannolikhet att väljas (även den giriga igen, via likformig sampling).
Vid första anblick kan detta tillvägagångssätt verka problematiskt: eftersom policyn aldrig blir helt girig kommer den aldrig att konvergera till exakt optimal policy. Därmed uppfyller den inte strikt villkoren för GPI om vi förväntar oss exakt optimalitet i gränsen.
Dock kräver GPI inte att policyn blir optimal omedelbart — det krävs endast att varje policy förbättras (eller förblir densamma) jämfört med den föregående, och gradvis närmar sig optimalitet. ε-girig policy uppfyller detta villkor: den förbättrar policyn i genomsnitt och säkerställer kontinuerlig utforskning för bättre uppskattningar.
För att hantera konvergens till den verkligt optimala policyn kan vi gradvis minska ε över tid. Denna strategi gör att policyn blir alltmer girig i takt med att inlärningen fortskrider. I de tidiga stadierna hjälper utforskning till att samla varierad erfarenhet, medan agenten i senare stadier utnyttjar sin förbättrade kunskap. Med en korrekt avtagande ε konvergerar metoden till en optimal policy i gränsen.
Pseudokod
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 2.7
On-Policy Monte Carlo-Kontroll
Svep för att visa menyn
Idén bakom on-policy-metoder är intuitiv: en agent lär sig genom att följa sin nuvarande policy och förbättrar denna policy baserat på de utfall den upplever. För att upptäcka bättre handlingar och undvika att fastna i suboptimalt beteende, inför agenten en viss grad av slumpmässighet — ibland prövas alternativa handlingar för att uppmuntra utforskning.
Analogi
Föreställ dig att du är på en glassbar och det finns tre smaker tillgängliga: choklad, vanilj och jordgubb. Du älskar choklad, så det är oftast det du väljer. Men en dag, av nyfikenhet, bestämmer du dig för att prova jordgubb istället. Det visar sig att jordgubbsglassen på denna glassbar är otroligt god, och du bestämmer dig för att välja den varje gång du besöker denna glassbar.
Att prova en ny smak var kanske inte det mest logiska valet baserat på tidigare erfarenheter, men det gav dig möjlighet att upptäcka något nytt. Och denna typ av utforskande är kärnan i on-policy-metoder.
Stokastiska policys
Formellt innebär detta att man ersätter de deterministiska (hårda) policys som används i dynamisk programmering med stokastiska (mjuka) policys, betecknade som π(a∣s), där:
π(a∣s)>0∀s∈S,a∈A(s)Med andra ord har varje handling i varje tillstånd en icke-noll sannolikhet att väljas. Detta säkerställer att alla delar av miljön så småningom kan utforskas, vilket är avgörande när man lär sig av erfarenhet.
ε-giriga policys
För att införliva utforskning i policyn, låt oss använda konceptet ε-girig utforskning från multiarmade banditproblemet. Detta gör det möjligt att definiera en stokastisk policy som balanserar mellan att utnyttja den bästa kända åtgärden och att utforska alternativ:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εom a=a′argmaxqπ(s,a′)annarsDenna policy agerar girigt för det mesta — väljer åtgärden med det högsta uppskattade värdet — men med sannolikheten ε väljs en slumpmässig åtgärd, vilket säkerställer att alla åtgärder har en icke-noll sannolikhet att väljas (även den giriga igen, via likformig sampling).
Vid första anblick kan detta tillvägagångssätt verka problematiskt: eftersom policyn aldrig blir helt girig kommer den aldrig att konvergera till exakt optimal policy. Därmed uppfyller den inte strikt villkoren för GPI om vi förväntar oss exakt optimalitet i gränsen.
Dock kräver GPI inte att policyn blir optimal omedelbart — det krävs endast att varje policy förbättras (eller förblir densamma) jämfört med den föregående, och gradvis närmar sig optimalitet. ε-girig policy uppfyller detta villkor: den förbättrar policyn i genomsnitt och säkerställer kontinuerlig utforskning för bättre uppskattningar.
För att hantera konvergens till den verkligt optimala policyn kan vi gradvis minska ε över tid. Denna strategi gör att policyn blir alltmer girig i takt med att inlärningen fortskrider. I de tidiga stadierna hjälper utforskning till att samla varierad erfarenhet, medan agenten i senare stadier utnyttjar sin förbättrade kunskap. Med en korrekt avtagande ε konvergerar metoden till en optimal policy i gränsen.
Pseudokod
Tack för dina kommentarer!