Summary  
Policy iteration implements a fixed-point iterative algorithm that alternates between fully evaluating a policy’s value function and improving the policy greedily with respect to those values until convergence.

General domain of usage  
Reinforcement learning (Markov decision process planning)

**Politiikan iteroinnin** perusajatus on yksinkertainen:
1. Valitaan alkuperäinen $$\pi$$ ja $$v$$;
2. Käytetään politiikan arviointia päivittämään $$v$$, kunnes se on yhdenmukainen $$\pi$$:n kanssa;
3. Käytetään politiikan parantamista päivittämään $$\pi$$, kunnes se on ahne suhteessa $$v$$:hen;
4. Toistetaan vaiheet 2-3, kunnes konvergenssi saavutetaan.

Tässä menetelmässä **ei ole osittaisia päivityksiä**:
- **Politiikan arvioinnin** aikana arvot päivitetään jokaiselle tilalle, kunnes ne ovat yhdenmukaisia nykyisen politiikan kanssa;
- **Politiikan parantamisen** aikana politiikka tehdään ahneeksi arvotoimintoon nähden.

Pseudokoodin perusteella, mikä ehto pysäyttää politiikan iteroinnin ulomman silmukan?

Vahvistusoppiminen (RL) on koneoppimisen tehokas osa-alue, joka keskittyy älykkäiden agenttien kouluttamiseen vuorovaikutuksessa ympäristönsä kanssa. Tällä kurssilla opit, kuinka agentit löytävät vähitellen tehokkaita toimintatapoja kokeilun ja erehdyksen kautta. Aloitat keskeisistä käsitteistä, kuten Markovin päätösprosesseista ja moniaseisista bandiiteista, ja etenet dynaamiseen ohjelmointiin, Monte Carlo -menetelmiin ja ajallisen eron oppimiseen.

Opi, kuinka agentteja koulutetaan tekemään optimaalisia päätöksiä kokeilun ja erehdyksen kautta. Tutustu vahvistusoppimisen teorian perusteisiin. Saat käytännön kokemusta Gymnasium-ympäristön asettamisesta ja suorittamisesta.

Hallitse tutkimisen ja hyödyntämisen välinen tasapaino moniaseisen bandiittiongelman avulla. Toteuta toimenpidearvon estimointi, ε-ahne, yläluottamusraja ja gradienttibandiitti -menetelmät. Arvioi algoritmien suorituskykyä simuloiduissa palkkioiden maksimointitehtävissä.

Hallitse dynaaminen ohjelmointi mallipohjaisessa RL:ssä. Opi, kuinka Bellmanin yhtälöitä voidaan käyttää politiikkojen arviointiin ja parantamiseen. Toteuta politiikka- ja arvoiterointialgoritmit. Tutustu yleistettyyn politiikkaiterointiin mallittomien menetelmien teoreettisena perustana.

Monte Carlo -menetelmien hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi ja optimaalisten politiikkojen johtaminen täydellisistä episodeista. On-policy- ja off-policy-Monte Carlo -ohjausalgoritmien toteutus. Tutkimusstrategioiden löytäminen mallittoman oppimisen optimointiin.

Aikaisen eron oppimisen hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi osittaisista episodeista TD(0)-päivityksiä käyttäen. On-policy SARSA- ja off-policy Q-Learning -algoritmien toteutus. Monte Carlo -menetelmien ja TD-oppimisen yhdistäminen n-askeleen TD:ssä ja TD(λ):ssa.

Politiikan Iterointi

Pseudokoodi