Summary  
Value iteration is an algorithm for solving Markov Decision Processes by merging policy evaluation and improvement into a single update: it repeatedly applies the Bellman optimality equation to the value function until it converges, then derives the optimal policy.  

General domain of usage  
Reinforcement learning

Vaikka **policy iteration** on tehokas menetelmä **MDP**-ongelmien ratkaisemiseen, siihen liittyy merkittävä haittapuoli: jokainen iteraatio sisältää erillisen **policy evaluation** -vaiheen. Kun **policy evaluation** suoritetaan **iteraatiivisesti**, se vaatii useita läpikäyntejä koko **tila-avaruuden** yli, mikä johtaa huomattavaan laskennalliseen kuormitukseen ja pidempiin laskenta-aikoihin.

Hyvä vaihtoehto on **value iteration**, menetelmä, joka yhdistää policy evaluationin ja policy improvementin **yhdeksi vaiheeksi**. Tämä menetelmä päivittää arvofunktion suoraan, kunnes se konvergoituu **optimaaliseen arvofunktioon**. Kun konvergenssi on saavutettu, **optimaalinen politiikka** voidaan johtaa suoraan tästä optimaalisesta arvofunktiosta.

**Value iteration** toimii suorittamalla vain yhden varmistuksen policy evaluationin aikana ennen policy improvementia. Tämä johtaa seuraavaan päivityskaavaan:

$$
v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S
$$

Muuntaen Bellmanin optimaalisen yhtälön päivityssäännöksi, policy evaluation ja policy improvement yhdistetään yhdeksi vaiheeksi.

Pseudokoodin perusteella, milloin arvoiterointi päättyy?

Vahvistusoppiminen (RL) on koneoppimisen tehokas osa-alue, joka keskittyy älykkäiden agenttien kouluttamiseen vuorovaikutuksessa ympäristönsä kanssa. Tällä kurssilla opit, kuinka agentit löytävät vähitellen tehokkaita toimintatapoja kokeilun ja erehdyksen kautta. Aloitat keskeisistä käsitteistä, kuten Markovin päätösprosesseista ja moniaseisista bandiiteista, ja etenet dynaamiseen ohjelmointiin, Monte Carlo -menetelmiin ja ajallisen eron oppimiseen.

Opi, kuinka agentteja koulutetaan tekemään optimaalisia päätöksiä kokeilun ja erehdyksen kautta. Tutustu vahvistusoppimisen teorian perusteisiin. Saat käytännön kokemusta Gymnasium-ympäristön asettamisesta ja suorittamisesta.

Hallitse tutkimisen ja hyödyntämisen välinen tasapaino moniaseisen bandiittiongelman avulla. Toteuta toimenpidearvon estimointi, ε-ahne, yläluottamusraja ja gradienttibandiitti -menetelmät. Arvioi algoritmien suorituskykyä simuloiduissa palkkioiden maksimointitehtävissä.

Hallitse dynaaminen ohjelmointi mallipohjaisessa RL:ssä. Opi, kuinka Bellmanin yhtälöitä voidaan käyttää politiikkojen arviointiin ja parantamiseen. Toteuta politiikka- ja arvoiterointialgoritmit. Tutustu yleistettyyn politiikkaiterointiin mallittomien menetelmien teoreettisena perustana.

Monte Carlo -menetelmien hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi ja optimaalisten politiikkojen johtaminen täydellisistä episodeista. On-policy- ja off-policy-Monte Carlo -ohjausalgoritmien toteutus. Tutkimusstrategioiden löytäminen mallittoman oppimisen optimointiin.

Aikaisen eron oppimisen hallinta mallittomassa RL:ssä. Arvofunktioiden estimointi osittaisista episodeista TD(0)-päivityksiä käyttäen. On-policy SARSA- ja off-policy Q-Learning -algoritmien toteutus. Monte Carlo -menetelmien ja TD-oppimisen yhdistäminen n-askeleen TD:ssä ja TD(λ):ssa.

Arvon Iterointi

Miten se toimii?

Pseudokoodi

Arvon Iterointi

Miten se toimii?

Pseudokoodi