Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära On-Policy Monte Carlo-Kontroll | Monte Carlo-metoder
Introduktion till Förstärkningsinlärning

bookOn-Policy Monte Carlo-Kontroll

Idén bakom on-policy-metoder är intuitiv: en agent lär sig genom att följa sin nuvarande policy och förbättrar denna policy baserat på de utfall den upplever. För att upptäcka bättre handlingar och undvika att fastna i suboptimalt beteende, inför agenten en viss grad av slumpmässighet — ibland prövas alternativa handlingar för att uppmuntra utforskning.

Analogi

Föreställ dig att du är på en glassbar och det finns tre smaker tillgängliga: choklad, vanilj och jordgubb. Du älskar choklad, så det är oftast det du väljer. Men en dag, av nyfikenhet, bestämmer du dig för att prova jordgubb istället. Det visar sig att jordgubbsglassen på denna glassbar är otroligt god, och du bestämmer dig för att välja den varje gång du besöker denna glassbar.

Att prova en ny smak var kanske inte det mest logiska valet baserat på tidigare erfarenheter, men det gav dig möjlighet att upptäcka något nytt. Och denna typ av utforskande är kärnan i on-policy-metoder.

Stokastiska policys

Formellt innebär detta att man ersätter de deterministiska (hårda) policys som används i dynamisk programmering med stokastiska (mjuka) policys, betecknade som π(as)\pi(a | s), där:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Med andra ord har varje handling i varje tillstånd en icke-noll sannolikhet att väljas. Detta säkerställer att alla delar av miljön så småningom kan utforskas, vilket är avgörande när man lär sig av erfarenhet.

ε\Large\varepsilon-giriga policys

För att införliva utforskning i policyn, låt oss använda konceptet ε\varepsilon-girig utforskning från multiarmade banditproblemet. Detta gör det möjligt att definiera en stokastisk policy som balanserar mellan att utnyttja den bästa kända åtgärden och att utforska alternativ:

π(as){1ε+εA(s)om a=arg maxaqπ(s,a)εA(s)annars\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{om } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{annars} \end{dcases}

Denna policy agerar girigt för det mesta — väljer åtgärden med det högsta uppskattade värdet — men med sannolikheten ε\varepsilon väljs en slumpmässig åtgärd, vilket säkerställer att alla åtgärder har en icke-noll sannolikhet att väljas (även den giriga igen, via likformig sampling).

Vid första anblick kan detta tillvägagångssätt verka problematiskt: eftersom policyn aldrig blir helt girig kommer den aldrig att konvergera till exakt optimal policy. Därmed uppfyller den inte strikt villkoren för GPI om vi förväntar oss exakt optimalitet i gränsen.

Dock kräver GPI inte att policyn blir optimal omedelbart — det krävs endast att varje policy förbättras (eller förblir densamma) jämfört med den föregående, och gradvis närmar sig optimalitet. ε\varepsilon-girig policy uppfyller detta villkor: den förbättrar policyn i genomsnitt och säkerställer kontinuerlig utforskning för bättre uppskattningar.

För att hantera konvergens till den verkligt optimala policyn kan vi gradvis minska ε\varepsilon över tid. Denna strategi gör att policyn blir alltmer girig i takt med att inlärningen fortskrider. I de tidiga stadierna hjälper utforskning till att samla varierad erfarenhet, medan agenten i senare stadier utnyttjar sin förbättrade kunskap. Med en korrekt avtagande ε\varepsilon konvergerar metoden till en optimal policy i gränsen.

Pseudokod

question mark

Hur kan stokastiska policys hjälpa till med utforskning?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 5

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 2.7

bookOn-Policy Monte Carlo-Kontroll

Svep för att visa menyn

Idén bakom on-policy-metoder är intuitiv: en agent lär sig genom att följa sin nuvarande policy och förbättrar denna policy baserat på de utfall den upplever. För att upptäcka bättre handlingar och undvika att fastna i suboptimalt beteende, inför agenten en viss grad av slumpmässighet — ibland prövas alternativa handlingar för att uppmuntra utforskning.

Analogi

Föreställ dig att du är på en glassbar och det finns tre smaker tillgängliga: choklad, vanilj och jordgubb. Du älskar choklad, så det är oftast det du väljer. Men en dag, av nyfikenhet, bestämmer du dig för att prova jordgubb istället. Det visar sig att jordgubbsglassen på denna glassbar är otroligt god, och du bestämmer dig för att välja den varje gång du besöker denna glassbar.

Att prova en ny smak var kanske inte det mest logiska valet baserat på tidigare erfarenheter, men det gav dig möjlighet att upptäcka något nytt. Och denna typ av utforskande är kärnan i on-policy-metoder.

Stokastiska policys

Formellt innebär detta att man ersätter de deterministiska (hårda) policys som används i dynamisk programmering med stokastiska (mjuka) policys, betecknade som π(as)\pi(a | s), där:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Med andra ord har varje handling i varje tillstånd en icke-noll sannolikhet att väljas. Detta säkerställer att alla delar av miljön så småningom kan utforskas, vilket är avgörande när man lär sig av erfarenhet.

ε\Large\varepsilon-giriga policys

För att införliva utforskning i policyn, låt oss använda konceptet ε\varepsilon-girig utforskning från multiarmade banditproblemet. Detta gör det möjligt att definiera en stokastisk policy som balanserar mellan att utnyttja den bästa kända åtgärden och att utforska alternativ:

π(as){1ε+εA(s)om a=arg maxaqπ(s,a)εA(s)annars\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{om } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{annars} \end{dcases}

Denna policy agerar girigt för det mesta — väljer åtgärden med det högsta uppskattade värdet — men med sannolikheten ε\varepsilon väljs en slumpmässig åtgärd, vilket säkerställer att alla åtgärder har en icke-noll sannolikhet att väljas (även den giriga igen, via likformig sampling).

Vid första anblick kan detta tillvägagångssätt verka problematiskt: eftersom policyn aldrig blir helt girig kommer den aldrig att konvergera till exakt optimal policy. Därmed uppfyller den inte strikt villkoren för GPI om vi förväntar oss exakt optimalitet i gränsen.

Dock kräver GPI inte att policyn blir optimal omedelbart — det krävs endast att varje policy förbättras (eller förblir densamma) jämfört med den föregående, och gradvis närmar sig optimalitet. ε\varepsilon-girig policy uppfyller detta villkor: den förbättrar policyn i genomsnitt och säkerställer kontinuerlig utforskning för bättre uppskattningar.

För att hantera konvergens till den verkligt optimala policyn kan vi gradvis minska ε\varepsilon över tid. Denna strategi gör att policyn blir alltmer girig i takt med att inlärningen fortskrider. I de tidiga stadierna hjälper utforskning till att samla varierad erfarenhet, medan agenten i senare stadier utnyttjar sin förbättrade kunskap. Med en korrekt avtagande ε\varepsilon konvergerar metoden till en optimal policy i gränsen.

Pseudokod

question mark

Hur kan stokastiska policys hjälpa till med utforskning?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 5
some-alt