Oppiskele On-Policy Monte Carlo -Ohjaus | Monte Carlo -Menetelmät

On-policy-menetelmien perusajatus on intuitiivinen: agentti oppii noudattamalla nykyistä politiikkaansa ja parantaa sitä kokemustensa perusteella. Löytääkseen parempia toimintoja ja välttääkseen juuttumisen epäoptimaaliseen käyttäytymiseen agentti sisällyttää toimintaansa satunnaisuutta — kokeillen ajoittain vaihtoehtoisia toimintoja tutkimisen edistämiseksi.

Vertauskuva

Kuvittele olevasi jäätelökaupassa, jossa on kolme makua: suklaa, vanilja ja mansikka. Rakastat suklaata, joten valitset sen yleensä. Eräänä päivänä päätät kuitenkin uteliaisuuttasi kokeilla mansikkaa. Käy ilmi, että tämän kaupan mansikkajäätelö on uskomattoman herkullista, ja päätät valita sen aina vieraillessasi tässä kaupassa.

Uuden maun kokeileminen ei välttämättä ollut loogisin valinta aiempien kokemusten perusteella, mutta se antoi mahdollisuuden löytää jotain uutta. Tällainen tutkiminen on on-policy-menetelmien ytimessä.

Stokastiset politiikat

Muodollisesti tämän ajatuksen omaksuminen tarkoittaa, että determinististen (kovien) politiikkojen sijaan, joita käytetään dynaamisessa ohjelmoinnissa, käytetään stokastisia (pehmeitä) politiikkoja, jotka merkitään muodossa $\pi(a | s)$ , missä:

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Toisin sanoen jokaisella toiminnolla jokaisessa tilassa on nollasta poikkeava todennäköisyys tulla valituksi. Tämä varmistaa, että kaikki ympäristön osat voidaan lopulta tutkia, mikä on olennaista opittaessa kokemuksesta.

$\Large\varepsilon$ -ahneet politiikat

Politiikkaan sisällytetään etsintä hyödyntämällä $\varepsilon$ -ahnetta etsintää (greedy exploration), joka on peräisin multi-armed bandit -ongelmasta. Tämän avulla voidaan määritellä stokastinen politiikka, joka tasapainottaa parhaan tunnetun toiminnon hyödyntämisen ja vaihtoehtojen tutkimisen välillä:

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{jos } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{muulloin} \end{dcases}

Tämä politiikka toimii useimmiten ahneesti — valitsee toiminnon, jolla on korkein arvioitu arvo — mutta todennäköisyydellä $\varepsilon$ se valitsee satunnaisen toiminnon, varmistaen, että kaikilla toiminnoilla on nollasta poikkeava mahdollisuus tulla valituksi (myös ahne toiminto voi tulla valituksi tasajakautuneella otannalla).

Aluksi tämä lähestymistapa vaikuttaa ongelmalliselta: koska politiikasta ei koskaan tule täysin ahnetta, se ei koskaan konvergoidu täsmälleen optimaaliseen politiikkaan. Näin ollen se ei tiukasti ottaen täytä GPI:n ehtoja, jos odotetaan täsmällistä optimaalisuutta raja-arvossa.

Kuitenkin GPI ei vaadi, että politiikasta tulee heti optimaalinen — se vaatii vain, että jokainen politiikka paranee (tai pysyy samana) edelliseen verrattuna, edeten asteittain kohti optimaalista. $\varepsilon$ -ahnas politiikka täyttää tämän ehdon: se parantaa politiikkaa keskimäärin ja varmistaa jatkuvan etsinnän parempien arvioiden tueksi.

Jotta konvergenssi todella optimaaliseen politiikkaan olisi mahdollista, voidaan $\varepsilon$ vähentää asteittain ajan myötä. Tämä strategia mahdollistaa politiikan muuttumisen yhä ahneemmaksi oppimisen edetessä. Alkuvaiheessa etsintä auttaa keräämään monipuolista kokemusta, kun taas myöhemmissä vaiheissa agentti hyödyntää parantunutta tietämystään. Oikein pienenevällä $\varepsilon$ -arvolla menetelmä konvergoituu optimaaliseen politiikkaan raja-arvossa.

Pseudokoodi

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 5

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Pyyhkäise näyttääksesi valikon

Vertauskuva

Stokastiset politiikat

\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

$\Large\varepsilon$ -ahneet politiikat

\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{jos } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{muulloin} \end{dcases}

Pseudokoodi

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 5

On-Policy Monte Carlo -Ohjaus

Vertauskuva

Stokastiset politiikat

ε\Large\varepsilonε-ahneet politiikat

Pseudokoodi

On-Policy Monte Carlo -Ohjaus

Vertauskuva

Stokastiset politiikat

ε\Large\varepsilonε-ahneet politiikat

Pseudokoodi

$\Large\varepsilon$ -ahneet politiikat

$\Large\varepsilon$ -ahneet politiikat