Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Évaluation de la Politique | Programmation Dynamique
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Évaluation de la Politique

Note
Définition

Évaluation de politique : processus de détermination de la fonction de valeur d'une politique donnée.

Note
Remarque

L'évaluation de politique peut être utilisée pour estimer à la fois la fonction de valeur d'état et la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.

Comme vous le savez, une fonction de valeur d'état d'une politique donnée peut être déterminée en résolvant une équation de Bellman :

vπ(s)=aπ(as)s,rp(s,rs,a)(r+γvπ(s))v_\pi(s) = \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Si un modèle complet de l'environnement est disponible (c'est-à-dire, si les probabilités de transition et les récompenses attendues pour toutes les paires état-action sont connues), les seules variables inconnues restantes dans l'équation sont les valeurs des états. Par conséquent, l'équation ci-dessus peut être reformulée comme un système de S|S| équations linéaires à S|S| inconnues.

Par exemple, si un MDP possède 2 états (s1s_1, s2s_2) et 2 actions (aller à s1s_1, aller à s2s_2), la fonction de valeur d'état pourrait être définie ainsi :

{V(s1)=0.5(5+0.9V(s1))+0.5(10+0.9V(s2))V(s2)=0.7(2+0.9V(s1))+0.3(0+0.9V(s2))\begin{cases} V(s_1) = 0.5 \cdot (5 + 0.9 \cdot V(s_1)) + 0.5 \cdot (10 + 0.9 \cdot V(s_2)) \\ V(s_2) = 0.7 \cdot (2 + 0.9 \cdot V(s_1)) + 0.3 \cdot (0 + 0.9 \cdot V(s_2)) \end{cases}

Ce système peut être résolu à l'aide de techniques standards d'algèbre linéaire.

Une solution unique à un tel système linéaire est garantie si au moins une des conditions suivantes est remplie :

  • Le facteur d'actualisation satisfait γ<1γ < 1 ;
  • La politique π\pi, suivie à partir de n'importe quel état ss, garantit que l'épisode se termine finalement.

Évaluation itérative de la politique

La solution peut être calculée directement, mais une approche itérative est plus couramment utilisée en raison de sa facilité d'implémentation. Cette méthode commence par attribuer des valeurs arbitraires à tous les états, sauf pour les états terminaux, qui sont fixés à 0. Les valeurs sont ensuite mises à jour itérativement en utilisant l'équation de Bellman comme règle de mise à jour :

vk+1(s)aπ(as)s,rp(s,rs,a)(r+γvk(s))v_{k+1}(s) \gets \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_k(s')\Bigr)

La fonction de valeur d'état estimée vkv_k converge finalement vers la véritable fonction de valeur d'état vπv_\pi lorsque kk \to \infty si vπv_\pi existe.

Stratégies de sauvegarde des valeurs

Lors de la mise à jour des estimations de valeur, les nouvelles estimations sont calculées à partir des valeurs précédentes. Le processus de conservation des estimations précédentes est appelé sauvegarde. Deux stratégies courantes existent pour effectuer des sauvegardes :

  • Sauvegarde complète : cette méthode consiste à stocker les nouvelles estimations dans un tableau séparé, distinct de celui contenant les valeurs précédentes (sauvegardées). Par conséquent, deux tableaux sont nécessaires — un pour conserver les estimations précédentes et un autre pour stocker les nouvelles valeurs calculées ;
  • Sauvegarde sur place : cette approche conserve toutes les valeurs dans un seul tableau. Chaque nouvelle estimation remplace immédiatement la valeur précédente. Cette méthode réduit l'utilisation de la mémoire, car un seul tableau est nécessaire.

En général, la méthode de sauvegarde sur place est privilégiée car elle nécessite moins de mémoire et converge plus rapidement, grâce à l'utilisation immédiate des dernières estimations.

Quand arrêter la mise à jour ?

Dans l'évaluation itérative de la politique, il n'existe pas de point précis auquel l'algorithme doit s'arrêter. Bien que la convergence soit garantie à la limite, poursuivre les calculs au-delà d'un certain point est inutile en pratique. Un critère d'arrêt simple et efficace consiste à suivre la différence absolue entre les estimations de valeur consécutives, vk+1(s)vk(s)|v_{k+1}(s) - v_k(s)|, et à la comparer à un petit seuil θ\theta. Si, après un cycle complet de mise à jour (où les valeurs de tous les états sont mises à jour), aucun changement ne dépasse θ\theta, le processus peut être arrêté en toute sécurité.

Pseudocode

question mark

Laquelle des affirmations suivantes est vraie concernant la méthode d'évaluation itérative de la politique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Évaluation de la Politique

Note
Définition

Évaluation de politique : processus de détermination de la fonction de valeur d'une politique donnée.

Note
Remarque

L'évaluation de politique peut être utilisée pour estimer à la fois la fonction de valeur d'état et la fonction de valeur d'action. Cependant, pour les méthodes de programmation dynamique, la fonction de valeur d'état sera utilisée.

Comme vous le savez, une fonction de valeur d'état d'une politique donnée peut être déterminée en résolvant une équation de Bellman :

vπ(s)=aπ(as)s,rp(s,rs,a)(r+γvπ(s))v_\pi(s) = \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Si un modèle complet de l'environnement est disponible (c'est-à-dire, si les probabilités de transition et les récompenses attendues pour toutes les paires état-action sont connues), les seules variables inconnues restantes dans l'équation sont les valeurs des états. Par conséquent, l'équation ci-dessus peut être reformulée comme un système de S|S| équations linéaires à S|S| inconnues.

Par exemple, si un MDP possède 2 états (s1s_1, s2s_2) et 2 actions (aller à s1s_1, aller à s2s_2), la fonction de valeur d'état pourrait être définie ainsi :

{V(s1)=0.5(5+0.9V(s1))+0.5(10+0.9V(s2))V(s2)=0.7(2+0.9V(s1))+0.3(0+0.9V(s2))\begin{cases} V(s_1) = 0.5 \cdot (5 + 0.9 \cdot V(s_1)) + 0.5 \cdot (10 + 0.9 \cdot V(s_2)) \\ V(s_2) = 0.7 \cdot (2 + 0.9 \cdot V(s_1)) + 0.3 \cdot (0 + 0.9 \cdot V(s_2)) \end{cases}

Ce système peut être résolu à l'aide de techniques standards d'algèbre linéaire.

Une solution unique à un tel système linéaire est garantie si au moins une des conditions suivantes est remplie :

  • Le facteur d'actualisation satisfait γ<1γ < 1 ;
  • La politique π\pi, suivie à partir de n'importe quel état ss, garantit que l'épisode se termine finalement.

Évaluation itérative de la politique

La solution peut être calculée directement, mais une approche itérative est plus couramment utilisée en raison de sa facilité d'implémentation. Cette méthode commence par attribuer des valeurs arbitraires à tous les états, sauf pour les états terminaux, qui sont fixés à 0. Les valeurs sont ensuite mises à jour itérativement en utilisant l'équation de Bellman comme règle de mise à jour :

vk+1(s)aπ(as)s,rp(s,rs,a)(r+γvk(s))v_{k+1}(s) \gets \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_k(s')\Bigr)

La fonction de valeur d'état estimée vkv_k converge finalement vers la véritable fonction de valeur d'état vπv_\pi lorsque kk \to \infty si vπv_\pi existe.

Stratégies de sauvegarde des valeurs

Lors de la mise à jour des estimations de valeur, les nouvelles estimations sont calculées à partir des valeurs précédentes. Le processus de conservation des estimations précédentes est appelé sauvegarde. Deux stratégies courantes existent pour effectuer des sauvegardes :

  • Sauvegarde complète : cette méthode consiste à stocker les nouvelles estimations dans un tableau séparé, distinct de celui contenant les valeurs précédentes (sauvegardées). Par conséquent, deux tableaux sont nécessaires — un pour conserver les estimations précédentes et un autre pour stocker les nouvelles valeurs calculées ;
  • Sauvegarde sur place : cette approche conserve toutes les valeurs dans un seul tableau. Chaque nouvelle estimation remplace immédiatement la valeur précédente. Cette méthode réduit l'utilisation de la mémoire, car un seul tableau est nécessaire.

En général, la méthode de sauvegarde sur place est privilégiée car elle nécessite moins de mémoire et converge plus rapidement, grâce à l'utilisation immédiate des dernières estimations.

Quand arrêter la mise à jour ?

Dans l'évaluation itérative de la politique, il n'existe pas de point précis auquel l'algorithme doit s'arrêter. Bien que la convergence soit garantie à la limite, poursuivre les calculs au-delà d'un certain point est inutile en pratique. Un critère d'arrêt simple et efficace consiste à suivre la différence absolue entre les estimations de valeur consécutives, vk+1(s)vk(s)|v_{k+1}(s) - v_k(s)|, et à la comparer à un petit seuil θ\theta. Si, après un cycle complet de mise à jour (où les valeurs de tous les états sont mises à jour), aucun changement ne dépasse θ\theta, le processus peut être arrêté en toute sécurité.

Pseudocode

question mark

Laquelle des affirmations suivantes est vraie concernant la méthode d'évaluation itérative de la politique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 4
some-alt