Apprendre Évaluation de la Politique | Programmation Dynamique

Définition

L'évaluation de la politique est un processus permettant de déterminer la fonction de valeur d'une politique donnée.

Remarque

L'évaluation de la politique peut être utilisée pour estimer à la fois la fonction de valeur d'état et la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.

Comme vous le savez, une fonction de valeur d'état d'une politique donnée peut être déterminée en résolvant une équation de Bellman :

v_\pi(s) = \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Si un modèle complet de l'environnement est disponible (c'est-à-dire, si les probabilités de transition et les récompenses attendues pour toutes les paires état-action sont connues), les seules variables inconnues restantes dans l'équation sont les valeurs des états. Par conséquent, l'équation ci-dessus peut être reformulée comme un système de $|S|$ équations linéaires à $|S|$ inconnues.

Par exemple, si un MDP possède 2 états ( $s_1$ , $s_2$ ) et 2 actions (aller vers $s_1$ , aller vers $s_2$ ), la fonction de valeur d'état pourrait être définie ainsi :

\begin{cases} V(s_1) = 0.5 \cdot (5 + 0.9 \cdot V(s_1)) + 0.5 \cdot (10 + 0.9 \cdot V(s_2)) \\ V(s_2) = 0.7 \cdot (2 + 0.9 \cdot V(s_1)) + 0.3 \cdot (0 + 0.9 \cdot V(s_2)) \end{cases}

Ce système peut être résolu à l'aide de techniques standards d'algèbre linéaire.

Une solution unique à un tel système linéaire est garantie si au moins l'une des conditions suivantes est remplie :

Le facteur d'actualisation satisfait $γ < 1$ ;
La politique $\pi$ , suivie à partir de n'importe quel état $s$ , garantit que l'épisode se termine finalement.

Évaluation itérative de la politique

La solution peut être calculée directement, mais une approche itérative est plus couramment utilisée en raison de sa simplicité d'implémentation. Cette méthode commence par attribuer des valeurs arbitraires à tous les états, sauf pour les états terminaux, qui sont fixés à 0. Les valeurs sont ensuite mises à jour itérativement en utilisant l'équation de Bellman comme règle de mise à jour :

v_{k+1}(s) \gets \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_k(s')\Bigr)

La fonction de valeur d'état estimée $v_k$ converge finalement vers la véritable fonction de valeur d'état $v_\pi$ lorsque $k \to \infty$ si $v_\pi$ existe.

Stratégies de sauvegarde des valeurs

Lors de la mise à jour des estimations de valeur, les nouvelles estimations sont calculées à partir des valeurs précédentes. Le processus de conservation des estimations précédentes est appelé sauvegarde. Deux stratégies courantes existent pour effectuer des sauvegardes :

Sauvegarde complète : cette méthode consiste à stocker les nouvelles estimations dans un tableau distinct de celui contenant les valeurs précédentes (sauvegardées). Par conséquent, deux tableaux sont nécessaires — un pour conserver les estimations précédentes et un autre pour stocker les nouvelles valeurs calculées ;
Sauvegarde sur place : cette approche conserve toutes les valeurs dans un seul tableau. Chaque nouvelle estimation remplace immédiatement la valeur précédente. Cette méthode réduit l'utilisation de la mémoire, car un seul tableau est nécessaire.

En général, la méthode de sauvegarde sur place est privilégiée car elle nécessite moins de mémoire et converge plus rapidement, grâce à l'utilisation immédiate des estimations les plus récentes.

Quand arrêter la mise à jour ?

Dans l'évaluation itérative de la politique, il n'existe pas de point précis auquel l'algorithme doit s'arrêter. Bien que la convergence soit garantie à la limite, poursuivre les calculs au-delà d'un certain point est inutile en pratique. Un critère d'arrêt simple et efficace consiste à suivre la différence absolue entre les estimations de valeur consécutives, $|v_{k+1}(s) - v_k(s)|$ , et à la comparer à un petit seuil $\theta$ . Si, après un cycle complet de mise à jour (où les valeurs de tous les états sont mises à jour), aucun changement ne dépasse $\theta$ , le processus peut être arrêté en toute sécurité.

Pseudocode

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 4

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the difference between full backup and in-place backup in more detail?

How does the choice of the discount factor γ affect convergence?

Can you walk me through the pseudocode for iterative policy evaluation?

Glissez pour afficher le menu