Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Yleistetty Politiikan Iterointi | Dynaaminen Ohjelmointi
Johdatus Vahvistusoppimiseen
course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Yleistetty Politiikan Iterointi

Aiemmissa luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luonnollisesti viitekehykseen, jota kutsutaan nimellä yleistetty politiikan iterointi.

Note
Määritelmä

Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.

Suurin osa vahvistusoppimisen menetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.

Kahden prosessin välinen vuorovaikutus

Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:

  • Yhteistyöhön perustuva: molemmat prosessit työskentelevät yhteisen tavoitteen eteen—löytää optimaalinen politiikka ja arvotoiminto. Politiikan arviointi arvioi arvotoiminnon tietylle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
  • Kilpaileva: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, että politiikka ei enää ole ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee näistä arvioista virheellisiä. Tämä jatkuva vuorottelu jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.

Yhteenveto

Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Tulevissa luvuissa perehdytään siihen, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.

question mark

Valitse kaksi prosessia, jotka toimivat yhdessä yleistetyn politiikan iteroinnin viitekehyksessä

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

course content

Kurssisisältö

Johdatus Vahvistusoppimiseen

Johdatus Vahvistusoppimiseen

1. RL:n Ydinteoria
2. Moniaseinen Bandiittiongelma
3. Dynaaminen Ohjelmointi
4. Monte Carlo -Menetelmät
5. Aikaisen Eron Oppiminen

book
Yleistetty Politiikan Iterointi

Aiemmissa luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luonnollisesti viitekehykseen, jota kutsutaan nimellä yleistetty politiikan iterointi.

Note
Määritelmä

Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.

Suurin osa vahvistusoppimisen menetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.

Kahden prosessin välinen vuorovaikutus

Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:

  • Yhteistyöhön perustuva: molemmat prosessit työskentelevät yhteisen tavoitteen eteen—löytää optimaalinen politiikka ja arvotoiminto. Politiikan arviointi arvioi arvotoiminnon tietylle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
  • Kilpaileva: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, että politiikka ei enää ole ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee näistä arvioista virheellisiä. Tämä jatkuva vuorottelu jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.

Yhteenveto

Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Tulevissa luvuissa perehdytään siihen, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.

question mark

Valitse kaksi prosessia, jotka toimivat yhdessä yleistetyn politiikan iteroinnin viitekehyksessä

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6
some-alt