Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele On-Policy Monte Carlo -Ohjaus | Monte Carlo -menetelmät
Vahvistusoppimisen Perusteet

bookOn-Policy Monte Carlo -Ohjaus

On-policy-menetelmien perusajatus on intuitiivinen: agentti oppii seuraamalla nykyistä politiikkaansa ja parantaa sitä kokemustensa perusteella. Löytääkseen parempia toimintoja ja välttääkseen juuttumisen huonompiin ratkaisuihin agentti lisää satunnaisuutta — kokeilee ajoittain vaihtoehtoisia toimintoja edistääkseen tutkimista.

Vertauskuva

Kuvittele olevasi jäätelökioskilla, jossa on kolme makua: suklaa, vanilja ja mansikka. Rakastat suklaata, joten valitset sen yleensä. Eräänä päivänä päätät kuitenkin uteliaisuuttasi kokeilla mansikkaa. Käy ilmi, että tämän kioskin mansikkajäätelö on poikkeuksellisen herkullista, ja päätät valita sen aina kun vierailet kyseisessä kioskissa.

Uuden maun kokeileminen ei välttämättä ollut loogisin valinta aiempien kokemusten perusteella, mutta se antoi mahdollisuuden löytää jotain uutta. Tällainen tutkiminen on on-policy-menetelmien ytimessä.

Stokastiset politiikat

Tämän ajatuksen omaksuminen tarkoittaa muodollisesti sitä, että dynaamisessa ohjelmoinnissa käytetyt deterministiset (kovat) politiikat korvataan stokastisilla (pehmeillä) politiikoilla, jotka merkitään muodossa π(as)\pi(a | s), missä:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Toisin sanoen jokaisella toiminnolla jokaisessa tilassa on nollasta poikkeava todennäköisyys tulla valituksi. Tämä varmistaa, että kaikki ympäristön osat voidaan lopulta tutkia, mikä on olennaista opittaessa kokemuksesta.

ε\Large\varepsilon-ahneet politiikat

Politiikkaan voidaan sisällyttää etsintää hyödyntämällä ε\varepsilon-ahnetta etsintää, joka on peräisin multi-armed bandit -ongelmasta. Tämän avulla voidaan määritellä stokastinen politiikka, joka tasapainottaa parhaan tunnetun toiminnon hyödyntämisen ja vaihtoehtojen tutkimisen välillä:

π(as){1ε+εA(s)jos a=arg maxaqπ(s,a)εA(s)muulloin\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{jos } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{muulloin} \end{dcases}

Tämä politiikka toimii useimmiten ahneesti — valitsee toiminnon, jolla on korkein arvioitu arvo — mutta todennäköisyydellä ε\varepsilon se valitsee satunnaisen toiminnon, varmistaen, että kaikilla toiminnoilla on nollasta poikkeava mahdollisuus tulla valituksi (myös ahne toiminto voi tulla valituksi uudelleen tasajakautuneella arvonnalla).

Aluksi tämä lähestymistapa voi vaikuttaa ongelmalliselta: koska politiikasta ei koskaan tule täysin ahnetta, se ei koskaan konvergoi täsmälleen optimaaliseen politiikkaan. Näin ollen se ei tiukasti ottaen täytä GPI:n ehtoja, jos odotetaan täsmällistä optimaalisuutta raja-arvossa.

Kuitenkin GPI ei vaadi, että politiikasta tulee heti optimaalinen — se edellyttää vain, että jokainen politiikka paranee (tai pysyy samana) edelliseen verrattuna, edeten vähitellen kohti optimaalista ratkaisua. ε\varepsilon-ahnas politiikka täyttää tämän ehdon: se parantaa politiikkaa keskimäärin ja varmistaa jatkuvan etsinnän parempien arvioiden tueksi.

Jotta konvergenssi todella optimaaliseen politiikkaan olisi mahdollista, voimme vähentää vähitellen ε\varepsilon:n arvoa ajan myötä. Tämä strategia mahdollistaa politiikan muuttumisen yhä ahneemmaksi oppimisen edetessä. Alkuvaiheessa etsintä auttaa keräämään monipuolista kokemusta, kun taas myöhemmissä vaiheissa agentti hyödyntää parantunutta tietämystään. Oikein alenevalla ε\varepsilon:llä menetelmä konvergoi optimaaliseen politiikkaan raja-arvossa.

Pseudokoodi

question mark

Miten stokastiset politiikat auttavat tutkimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.7

bookOn-Policy Monte Carlo -Ohjaus

Pyyhkäise näyttääksesi valikon

On-policy-menetelmien perusajatus on intuitiivinen: agentti oppii seuraamalla nykyistä politiikkaansa ja parantaa sitä kokemustensa perusteella. Löytääkseen parempia toimintoja ja välttääkseen juuttumisen huonompiin ratkaisuihin agentti lisää satunnaisuutta — kokeilee ajoittain vaihtoehtoisia toimintoja edistääkseen tutkimista.

Vertauskuva

Kuvittele olevasi jäätelökioskilla, jossa on kolme makua: suklaa, vanilja ja mansikka. Rakastat suklaata, joten valitset sen yleensä. Eräänä päivänä päätät kuitenkin uteliaisuuttasi kokeilla mansikkaa. Käy ilmi, että tämän kioskin mansikkajäätelö on poikkeuksellisen herkullista, ja päätät valita sen aina kun vierailet kyseisessä kioskissa.

Uuden maun kokeileminen ei välttämättä ollut loogisin valinta aiempien kokemusten perusteella, mutta se antoi mahdollisuuden löytää jotain uutta. Tällainen tutkiminen on on-policy-menetelmien ytimessä.

Stokastiset politiikat

Tämän ajatuksen omaksuminen tarkoittaa muodollisesti sitä, että dynaamisessa ohjelmoinnissa käytetyt deterministiset (kovat) politiikat korvataan stokastisilla (pehmeillä) politiikoilla, jotka merkitään muodossa π(as)\pi(a | s), missä:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Toisin sanoen jokaisella toiminnolla jokaisessa tilassa on nollasta poikkeava todennäköisyys tulla valituksi. Tämä varmistaa, että kaikki ympäristön osat voidaan lopulta tutkia, mikä on olennaista opittaessa kokemuksesta.

ε\Large\varepsilon-ahneet politiikat

Politiikkaan voidaan sisällyttää etsintää hyödyntämällä ε\varepsilon-ahnetta etsintää, joka on peräisin multi-armed bandit -ongelmasta. Tämän avulla voidaan määritellä stokastinen politiikka, joka tasapainottaa parhaan tunnetun toiminnon hyödyntämisen ja vaihtoehtojen tutkimisen välillä:

π(as){1ε+εA(s)jos a=arg maxaqπ(s,a)εA(s)muulloin\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{jos } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{muulloin} \end{dcases}

Tämä politiikka toimii useimmiten ahneesti — valitsee toiminnon, jolla on korkein arvioitu arvo — mutta todennäköisyydellä ε\varepsilon se valitsee satunnaisen toiminnon, varmistaen, että kaikilla toiminnoilla on nollasta poikkeava mahdollisuus tulla valituksi (myös ahne toiminto voi tulla valituksi uudelleen tasajakautuneella arvonnalla).

Aluksi tämä lähestymistapa voi vaikuttaa ongelmalliselta: koska politiikasta ei koskaan tule täysin ahnetta, se ei koskaan konvergoi täsmälleen optimaaliseen politiikkaan. Näin ollen se ei tiukasti ottaen täytä GPI:n ehtoja, jos odotetaan täsmällistä optimaalisuutta raja-arvossa.

Kuitenkin GPI ei vaadi, että politiikasta tulee heti optimaalinen — se edellyttää vain, että jokainen politiikka paranee (tai pysyy samana) edelliseen verrattuna, edeten vähitellen kohti optimaalista ratkaisua. ε\varepsilon-ahnas politiikka täyttää tämän ehdon: se parantaa politiikkaa keskimäärin ja varmistaa jatkuvan etsinnän parempien arvioiden tueksi.

Jotta konvergenssi todella optimaaliseen politiikkaan olisi mahdollista, voimme vähentää vähitellen ε\varepsilon:n arvoa ajan myötä. Tämä strategia mahdollistaa politiikan muuttumisen yhä ahneemmaksi oppimisen edetessä. Alkuvaiheessa etsintä auttaa keräämään monipuolista kokemusta, kun taas myöhemmissä vaiheissa agentti hyödyntää parantunutta tietämystään. Oikein alenevalla ε\varepsilon:llä menetelmä konvergoi optimaaliseen politiikkaan raja-arvossa.

Pseudokoodi

question mark

Miten stokastiset politiikat auttavat tutkimisessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 5
some-alt