Apprendre Itération de la Valeur | Programmation Dynamique

Bien que l'itération de politique soit une approche efficace pour résoudre les MDP, elle présente un inconvénient majeur : chaque itération implique une étape distincte d'évaluation de politique. Lorsque l'évaluation de politique est effectuée de manière itérative, elle nécessite plusieurs passages sur l'ensemble de l'espace d'états, ce qui entraîne une surcharge computationnelle considérable et des temps de calcul plus longs.

Une bonne alternative est l'itération de valeur, une méthode qui fusionne l'évaluation de politique et l'amélioration de politique en une seule étape. Cette méthode met à jour directement la fonction de valeur jusqu'à ce qu'elle converge vers la fonction de valeur optimale. Une fois la convergence atteinte, la politique optimale peut être dérivée directement de cette fonction de valeur optimale.

Fonctionnement

L'itération de valeur fonctionne en effectuant une seule sauvegarde lors de l'évaluation de politique, avant de procéder à l'amélioration de politique. Cela conduit à la formule de mise à jour suivante :

v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

En transformant l'équation d'optimalité de Bellman en règle de mise à jour, l'évaluation de politique et l'amélioration de politique sont fusionnées en une seule étape.

Pseudocode

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 8

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the steps in the value iteration pseudocode?

What is the difference between value iteration and policy iteration?

How do you know when value iteration has converged?