Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Itération de la Valeur
Bien que l'itération de politique soit une approche efficace pour résoudre les MDP, elle présente un inconvénient majeur : chaque itération implique une étape distincte d'évaluation de politique. Lorsque l'évaluation de politique est effectuée de manière itérative, elle nécessite plusieurs passages sur l'ensemble de l'espace d'états, ce qui entraîne une surcharge computationnelle considérable et des temps de calcul plus longs.
Une bonne alternative est l'itération de valeur, une méthode qui fusionne l'évaluation de politique et l'amélioration de politique en une seule étape. Cette méthode met à jour directement la fonction de valeur jusqu'à ce qu'elle converge vers la fonction de valeur optimale. Une fois la convergence atteinte, la politique optimale peut être dérivée directement de cette fonction de valeur optimale.
Fonctionnement
L'itération de valeur fonctionne en effectuant un seul backup lors de l'évaluation de politique, avant de procéder à l'amélioration de politique. Cela conduit à la formule de mise à jour suivante :
En transformant l'équation d'optimalité de Bellman en règle de mise à jour, l'évaluation de politique et l'amélioration de politique sont fusionnées en une seule étape.
Pseudocode
Merci pour vos commentaires !