Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Yleistetty Politiikan Iterointi | Dynaaminen Ohjelmointi
Vahvistusoppimisen Perusteet

bookYleistetty Politiikan Iterointi

Edellisissä luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luontevasti viitekehykseksi, jota kutsutaan nimellä yleistetty politiikan iterointi.

Note
Määritelmä

Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.

Suurin osa vahvistusoppimismenetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.

Kahden prosessin välinen vuorovaikutus

Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:

  • Yhteistyö: molemmat prosessit pyrkivät yhteiseen tavoitteeseen—optimaalisen politiikan ja arvotoiminnon löytämiseen. Politiikan arviointi arvioi arvotoiminnon annetulle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
  • Kilpailu: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, ettei politiikka ole enää ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee arvioista virheellisiä. Tämä jatkuva vuorovaikutus jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.

Yhteenveto

Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Seuraavissa luvuissa tarkastellaan, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.

question mark

Valitse kaksi prosessia, jotka toimivat yhdessä yleistetyn politiikan iteroinnin viitekehyksessä

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Awesome!

Completion rate improved to 2.7

bookYleistetty Politiikan Iterointi

Pyyhkäise näyttääksesi valikon

Edellisissä luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luontevasti viitekehykseksi, jota kutsutaan nimellä yleistetty politiikan iterointi.

Note
Määritelmä

Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.

Suurin osa vahvistusoppimismenetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.

Kahden prosessin välinen vuorovaikutus

Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:

  • Yhteistyö: molemmat prosessit pyrkivät yhteiseen tavoitteeseen—optimaalisen politiikan ja arvotoiminnon löytämiseen. Politiikan arviointi arvioi arvotoiminnon annetulle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
  • Kilpailu: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, ettei politiikka ole enää ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee arvioista virheellisiä. Tämä jatkuva vuorovaikutus jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.

Yhteenveto

Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Seuraavissa luvuissa tarkastellaan, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.

question mark

Valitse kaksi prosessia, jotka toimivat yhdessä yleistetyn politiikan iteroinnin viitekehyksessä

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 6
some-alt