Kurssisisältö
Johdatus Vahvistusoppimiseen
Johdatus Vahvistusoppimiseen
Yleistetty Politiikan Iterointi
Aiemmissa luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luonnollisesti viitekehykseen, jota kutsutaan nimellä yleistetty politiikan iterointi.
Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.
Suurin osa vahvistusoppimisen menetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.
Kahden prosessin välinen vuorovaikutus
Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:
- Yhteistyöhön perustuva: molemmat prosessit työskentelevät yhteisen tavoitteen eteen—löytää optimaalinen politiikka ja arvotoiminto. Politiikan arviointi arvioi arvotoiminnon tietylle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
- Kilpaileva: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, että politiikka ei enää ole ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee näistä arvioista virheellisiä. Tämä jatkuva vuorottelu jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.
Yhteenveto
Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Tulevissa luvuissa perehdytään siihen, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.
Kiitos palautteestasi!