Apprendre Contrôle Monte Carlo | Méthodes de Monte Carlo

En remplaçant l’étape d’évaluation de la politique dans l’algorithme standard d’itération de politique par les techniques d’estimation Monte Carlo décrites dans le chapitre précédent, il est déjà possible de dériver une nouvelle variante de l’itération de politique—une approche qui repose sur l’expérience échantillonnée plutôt que sur la programmation dynamique.

Cependant, une limitation majeure subsiste. Dans l’itération de politique traditionnelle, l’étape d’amélioration de la politique dépend de la disponibilité d’un modèle complet de l’environnement. Plus précisément, pour mettre à jour la politique, on utilise l’expression suivante :

\pi(s) \gets \argmax_a \sum_{s', r} \textcolor{red}{p(s', r | s, a)} \Bigl(r + \gamma v(s')\Bigr)

Cette équation suppose que l’on connaît les probabilités de transition $p(s', r | s, a)$ . Mais c’est précisément là le problème : les méthodes Monte Carlo sont conçues pour des contextes sans modèle, où la dynamique de transition de l’environnement est inconnue. Si un modèle complet est disponible, il serait alors préférable d’utiliser la programmation dynamique pour toutes les étapes, y compris l’évaluation de la politique, car cela serait plus efficace et précis.

Ainsi, bien que le remplacement des méthodes d’estimation de la valeur par Monte Carlo constitue un pas vers l’apprentissage par renforcement sans modèle, il reste nécessaire de trouver un moyen d’effectuer l’amélioration de la politique sans dépendre de la connaissance du modèle. Cela implique de passer de la fonction de valeur d’état à la fonction de valeur d’action.

Pourquoi les valeurs d’action ?

En utilisant les valeurs d’action, il devient possible d’effectuer l’amélioration de la politique sans nécessiter de modèle de l’environnement. Au lieu de s’appuyer sur les probabilités de transition pour calculer les retours attendus, on peut directement sélectionner les actions qui semblent offrir la valeur la plus élevée. L’étape d’amélioration de la politique devient alors :

\pi(s) \gets \argmax_a q(s, a) \qquad \forall s \in S

Il n’est pas difficile de démontrer que la nouvelle politique n’est pas moins performante que l’ancienne, puisque le théorème d’amélioration de la politique reste applicable :

\begin{aligned} q_{\pi_{k}}(s, \pi_{k+1}(s)) &= q_{\pi_k}(s, \argmax_a q_{\pi_k}(s, a))\\ &= \max_a q_{\pi_k}(s, a)\\ &\ge q_{\pi_k}(s, \pi_k(s))\\ &= v_{\pi_k}(s) \end{aligned}

Comme pour la programmation dynamique, ce théorème garantit que soit $\pi_{k+1}$ est meilleure que $\pi_k$ , soit qu’elles sont toutes deux égales et optimales.

Estimation de la fonction de valeur d'action

Le processus d'estimation est presque identique à la fonction de valeur d'état. Toutes les idées utilisées pour estimer les valeurs d'état peuvent être appliquées à l'estimation des valeurs d'action.

Pseudocode

Ainsi, avec un nombre suffisant d'itérations, les valeurs d'action estimées devraient se rapprocher des véritables valeurs d'action.

Avec cela, il est déjà possible de construire une méthode similaire à l'itération de politique qui ne dépend pas d'un modèle. Pour ce faire, il suffit de remplacer les étapes d'évaluation de la politique et d'amélioration de la politique par les processus décrits ci-dessus.

Optimisation

Bien que l'étape d'évaluation puisse être réalisée à l'aide de l'estimation Monte Carlo comme décrit, elle tend à être peu efficace sur le plan computationnel. Comme vous l'avez déjà constaté, les méthodes Monte Carlo nécessitent généralement un grand nombre d'échantillons pour produire des estimations suffisamment précises. Si l'on suit une structure similaire à l'itération de politique, cette inefficacité est amplifiée : après chaque amélioration de la politique, il faut relancer l'estimation Monte Carlo pour réévaluer la nouvelle politique — ce qui entraîne une surcharge importante et un apprentissage lent.

Une alternative plus naturelle consiste à mettre à jour la politique immédiatement après le traitement de chaque épisode. Au lieu d'attendre la fin d'un cycle complet d'évaluation de la politique, l'agent peut affiner son comportement épisode par épisode, en utilisant les estimations les plus récentes des valeurs d'action.

Cela aboutit à une méthode qui ressemble davantage à l'itération de la valeur : elle combine les aspects d'évaluation et d'amélioration en une seule étape. Cela augmente l'efficacité de l'échantillonnage et accélère la vitesse de calcul.

Pseudocode

Cet algorithme suit un cadre GPI, car il comporte des étapes d'évaluation de la politique et d'amélioration de la politique, et il est appelé contrôle Monte Carlo. Le principal inconvénient de cette implémentation spécifique est l'hypothèse des démarrages exploratoires. Dans les prochains chapitres, vous verrez pourquoi cela pose problème et comment y remédier.

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

\pi(s) \gets \argmax_a \sum_{s', r} \textcolor{red}{p(s', r | s, a)} \Bigl(r + \gamma v(s')\Bigr)

Pourquoi les valeurs d’action ?

\pi(s) \gets \argmax_a q(s, a) \qquad \forall s \in S

Il n’est pas difficile de démontrer que la nouvelle politique n’est pas moins performante que l’ancienne, puisque le théorème d’amélioration de la politique reste applicable :

\begin{aligned} q_{\pi_{k}}(s, \pi_{k+1}(s)) &= q_{\pi_k}(s, \argmax_a q_{\pi_k}(s, a))\\ &= \max_a q_{\pi_k}(s, a)\\ &\ge q_{\pi_k}(s, \pi_k(s))\\ &= v_{\pi_k}(s) \end{aligned}

Comme pour la programmation dynamique, ce théorème garantit que soit $\pi_{k+1}$ est meilleure que $\pi_k$ , soit qu’elles sont toutes deux égales et optimales.

Estimation de la fonction de valeur d'action

Pseudocode

Ainsi, avec un nombre suffisant d'itérations, les valeurs d'action estimées devraient se rapprocher des véritables valeurs d'action.

Optimisation

Pseudocode

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 3