Oppiskele Yleistetty Politiikan Iterointi

Edellisissä luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luontevasti viitekehykseen, jota kutsutaan yleistetyksi politiikan iteroinniksi.

Määritelmä

Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.

Suurin osa vahvistusoppimismenetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.

Kahden prosessin välinen vuorovaikutus

Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:

Yhteistyö: molemmat prosessit pyrkivät yhteiseen tavoitteeseen—löytämään optimaalisen politiikan ja arvotoiminnon. Politiikan arviointi arvioi arvotoiminnon annetulle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
Kilpailu: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, että politiikka ei enää ole ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee näistä arvioista virheellisiä. Tämä jatkuva vuorottelu jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.

Yhteenveto

Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Seuraavissa luvuissa tutustut siihen, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 6

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?

Pyyhkäise näyttääksesi valikon