Itération de la Valeur
Bien que l'itération de politique soit une approche efficace pour résoudre les MDP, elle présente un inconvénient majeur : chaque itération implique une étape distincte d'évaluation de politique. Lorsque l'évaluation de politique est effectuée de manière itérative, elle nécessite plusieurs passages sur l'ensemble de l'espace d'états, ce qui entraîne une surcharge computationnelle considérable et des temps de calcul plus longs.
Une bonne alternative est l'itération de valeur, une méthode qui fusionne l'évaluation de politique et l'amélioration de politique en une seule étape. Cette méthode met à jour directement la fonction de valeur jusqu'à ce qu'elle converge vers la fonction de valeur optimale. Une fois la convergence atteinte, la politique optimale peut être dérivée directement de cette fonction de valeur optimale.
Fonctionnement
L'itération de valeur fonctionne en effectuant un seul backup lors de l'évaluation de politique, avant de procéder à l'amélioration de politique. Cela conduit à la formule de mise à jour suivante :
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SEn transformant l'équation d'optimalité de Bellman en règle de mise à jour, l'évaluation de politique et l'amélioration de politique sont fusionnées en une seule étape.
Pseudocode
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Itération de la Valeur
Glissez pour afficher le menu
Bien que l'itération de politique soit une approche efficace pour résoudre les MDP, elle présente un inconvénient majeur : chaque itération implique une étape distincte d'évaluation de politique. Lorsque l'évaluation de politique est effectuée de manière itérative, elle nécessite plusieurs passages sur l'ensemble de l'espace d'états, ce qui entraîne une surcharge computationnelle considérable et des temps de calcul plus longs.
Une bonne alternative est l'itération de valeur, une méthode qui fusionne l'évaluation de politique et l'amélioration de politique en une seule étape. Cette méthode met à jour directement la fonction de valeur jusqu'à ce qu'elle converge vers la fonction de valeur optimale. Une fois la convergence atteinte, la politique optimale peut être dérivée directement de cette fonction de valeur optimale.
Fonctionnement
L'itération de valeur fonctionne en effectuant un seul backup lors de l'évaluation de politique, avant de procéder à l'amélioration de politique. Cela conduit à la formule de mise à jour suivante :
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SEn transformant l'équation d'optimalité de Bellman en règle de mise à jour, l'évaluation de politique et l'amélioration de politique sont fusionnées en une seule étape.
Pseudocode
Merci pour vos commentaires !