Yleistetty Politiikan Iterointi
Edellisissä luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luontevasti viitekehykseksi, jota kutsutaan nimellä yleistetty politiikan iterointi.
Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.
Suurin osa vahvistusoppimismenetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.
Kahden prosessin välinen vuorovaikutus
Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:
- Yhteistyö: molemmat prosessit pyrkivät yhteiseen tavoitteeseen—optimaalisen politiikan ja arvotoiminnon löytämiseen. Politiikan arviointi arvioi arvotoiminnon annetulle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
- Kilpailu: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, ettei politiikka ole enää ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee arvioista virheellisiä. Tämä jatkuva vuorovaikutus jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.
Yhteenveto
Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Seuraavissa luvuissa tarkastellaan, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain what generalized policy iteration (GPI) is in simple terms?
What are the main differences between policy iteration and value iteration?
How do policy evaluation and policy improvement interact in practice?
Awesome!
Completion rate improved to 2.7
Yleistetty Politiikan Iterointi
Pyyhkäise näyttääksesi valikon
Edellisissä luvuissa opit politiikan arvioinnista ja politiikan parantamisesta. Nämä prosessit täydentävät toisiaan ja yhdistyvät luontevasti viitekehykseksi, jota kutsutaan nimellä yleistetty politiikan iterointi.
Yleistetty politiikan iterointi (GPI) on viitekehys, jossa politiikan arviointi ja politiikan parantaminen vuorovaikuttavat iteratiivisesti yhteisenä tavoitteena löytää optimaalinen politiikka.
Suurin osa vahvistusoppimismenetelmistä voidaan kuvata GPI-viitekehyksen avulla. Keskeiset erot näiden menetelmien välillä johtuvat politiikan arvioinnin ja politiikan parantamisen toteutustavoista sekä niiden vuorovaikutuksen luonteesta.
Kahden prosessin välinen vuorovaikutus
Politiikan arviointi ja politiikan parantaminen voidaan nähdä sekä yhteistyöhön perustuvina että kilpailevina prosesseina näkökulmasta riippuen:
- Yhteistyö: molemmat prosessit pyrkivät yhteiseen tavoitteeseen—optimaalisen politiikan ja arvotoiminnon löytämiseen. Politiikan arviointi arvioi arvotoiminnon annetulle politiikalle, kun taas politiikan parantaminen tarkentaa politiikkaa näiden arvioiden perusteella;
- Kilpailu: kummallakin prosessilla on ristiriitaiset tavoitteet. Politiikan arviointi pyrkii tarkasti arvioimaan arvotoiminnon nykyiselle politiikalle, mikä usein johtaa siihen, ettei politiikka ole enää ahne. Vastaavasti politiikan parantaminen säätää politiikkaa olemaan ahne nykyisten arvotoimintoarvioiden suhteen, mikä tyypillisesti tekee arvioista virheellisiä. Tämä jatkuva vuorovaikutus jatkuu, kunnes sekä politiikka että arvotoiminto lähestyvät optimaalisia muotojaan.
Yhteenveto
Yleistetty politiikan iterointi on hyödyllinen viitekehys, jonka avulla voidaan ymmärtää, miten erilaiset vahvistusoppimismenetelmät lähestyvät MDP-ongelmien ratkaisua. Seuraavissa luvuissa tarkastellaan, miten näitä ideoita voidaan soveltaa kahden keskeisen DP-menetelmän, politiikan iteroinnin ja arvoiteroinnin, luomiseen.
Kiitos palautteestasi!