Lära On-Policy Monte Carlo-Kontroll

Idén bakom on-policy-metoder är intuitiv: en agent lär sig genom att följa sin nuvarande policy och förbättrar denna policy baserat på de utfall den upplever. För att upptäcka bättre handlingar och undvika att fastna i suboptimalt beteende inför agenten en viss grad av slumpmässighet — ibland prövas alternativa handlingar för att uppmuntra utforskning.

Liknelse

Föreställ dig att du är på en glassbar och det finns tre smaker tillgängliga: choklad, vanilj och jordgubb. Du älskar choklad, så det är oftast det du väljer. Men en dag, av nyfikenhet, bestämmer du dig för att prova jordgubb istället. Det visar sig att jordgubbsglassen på detta ställe är otroligt god, och du bestämmer dig för att välja den varje gång du besöker glassbaren.

Att prova en ny smak var kanske inte det mest logiska valet baserat på tidigare erfarenheter, men det gav dig möjlighet att upptäcka något nytt. Och denna typ av utforskning ligger i kärnan av on-policy-metoder.

Stokastiska policys

Formellt innebär detta att man ersätter de deterministiska (hårda) policys som används i dynamisk programmering med stokastiska (mjuka) policys, betecknade som $\pi(a | s)$ , där:

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Med andra ord har varje handling i varje tillstånd en icke-noll sannolikhet att väljas. Detta säkerställer att alla delar av miljön så småningom kan utforskas, vilket är avgörande när man lär sig av erfarenhet.

$\Large\varepsilon$ -giriga policys

För att införliva utforskning i policyn, lånar vi konceptet $\varepsilon$ -girig utforskning från multiarmade banditproblemet. Detta gör det möjligt att definiera en stokastisk policy som balanserar mellan att utnyttja den bästa kända åtgärden och att utforska alternativ:

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{om } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{annars} \end{dcases}

Denna policy agerar girigt för det mesta — väljer åtgärden med högst uppskattat värde — men med sannolikheten $\varepsilon$ väljs en slumpmässig åtgärd, vilket säkerställer att alla åtgärder har en icke-noll sannolikhet att väljas (även den giriga igen, via uniform sampling).

Vid första anblick kan detta tillvägagångssätt verka problematiskt: eftersom policyn aldrig blir helt girig, kommer den aldrig att konvergera till exakt optimal policy. Därmed uppfyller den inte strikt villkoren för GPI om vi förväntar oss exakt optimalitet i gränsen.

Dock kräver GPI inte att policyn blir optimal omedelbart — det krävs endast att varje policy förbättras (eller förblir densamma) jämfört med den föregående, och gradvis närmar sig optimalitet. $\varepsilon$ -girig policy uppfyller detta villkor: den förbättrar policyn i genomsnitt och säkerställer kontinuerlig utforskning för bättre uppskattningar.

För att hantera konvergens till en verkligt optimal policy kan vi gradvis minska $\varepsilon$ över tid. Denna strategi gör att policyn blir alltmer girig i takt med att inlärningen fortskrider. I de tidiga stadierna hjälper utforskning till att samla varierad erfarenhet, medan agenten i senare stadier utnyttjar sin förbättrade kunskap. Med en korrekt avtagande $\varepsilon$ konvergerar metoden till en optimal policy i gränsen.

Pseudokod

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 5

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Svep för att visa menyn

Liknelse

Stokastiska policys

Formellt innebär detta att man ersätter de deterministiska (hårda) policys som används i dynamisk programmering med stokastiska (mjuka) policys, betecknade som $\pi(a | s)$ , där:

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

$\Large\varepsilon$ -giriga policys

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{om } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{annars} \end{dcases}

Pseudokod

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 5

On-Policy Monte Carlo-Kontroll

Liknelse

Stokastiska policys

ε\Large\varepsilonε-giriga policys

Pseudokod

On-Policy Monte Carlo-Kontroll

Liknelse

Stokastiska policys

ε\Large\varepsilonε-giriga policys

Pseudokod

$\Large\varepsilon$ -giriga policys

$\Large\varepsilon$ -giriga policys