Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Itération de Politique Généralisée | Programmation Dynamique
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Itération de Politique Généralisée

Dans les chapitres précédents, vous avez découvert l’évaluation de politique et l’amélioration de politique. Ces processus se complètent et se combinent naturellement dans un cadre appelé itération généralisée de politique.

Note
Définition

L’itération généralisée de politique (GPI) est un cadre dans lequel l’évaluation de politique et l’amélioration de politique interagissent de manière itérative dans le but commun de déterminer une politique optimale.

La plupart des méthodes d’apprentissage par renforcement peuvent être décrites dans le cadre de la GPI. Les principales différences entre ces méthodes proviennent des implémentations spécifiques de l’évaluation de politique et de l’amélioration de politique, ainsi que de la nature de leurs interactions.

Interaction entre deux processus

L'évaluation de la politique et l'amélioration de la politique peuvent être considérées à la fois comme des processus coopératifs et compétitifs, selon la perspective :

  • Coopératif : les deux processus poursuivent un objectif commun : trouver la politique optimale et la fonction de valeur optimale. L'évaluation de la politique estime la fonction de valeur pour une politique donnée, tandis que l'amélioration de la politique affine la politique sur la base de ces estimations ;
  • Compétitif : chaque processus a des objectifs contradictoires. L'évaluation de la politique vise à estimer précisément la fonction de valeur pour la politique actuelle, ce qui peut faire en sorte que la politique ne soit plus gloutonne. À l'inverse, l'amélioration de la politique ajuste la politique pour qu'elle soit gloutonne par rapport aux estimations actuelles de la fonction de valeur, ce qui rend généralement ces estimations incorrectes. Cette dynamique de va-et-vient se poursuit jusqu'à ce que la politique et la fonction de valeur convergent vers leurs formes optimales.

Résumé

L'itération de politique généralisée est un cadre utile pour comprendre comment différentes méthodes d'apprentissage par renforcement abordent la résolution des MDP. Dans les prochains chapitres, vous découvrirez comment ces idées peuvent être appliquées pour créer deux méthodes DP essentielles : l'itération de politique et l'itération de valeur.

question mark

Sélectionnez les deux processus qui fonctionnent ensemble dans le cadre de l'itération de politique généralisée

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 6

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Itération de Politique Généralisée

Dans les chapitres précédents, vous avez découvert l’évaluation de politique et l’amélioration de politique. Ces processus se complètent et se combinent naturellement dans un cadre appelé itération généralisée de politique.

Note
Définition

L’itération généralisée de politique (GPI) est un cadre dans lequel l’évaluation de politique et l’amélioration de politique interagissent de manière itérative dans le but commun de déterminer une politique optimale.

La plupart des méthodes d’apprentissage par renforcement peuvent être décrites dans le cadre de la GPI. Les principales différences entre ces méthodes proviennent des implémentations spécifiques de l’évaluation de politique et de l’amélioration de politique, ainsi que de la nature de leurs interactions.

Interaction entre deux processus

L'évaluation de la politique et l'amélioration de la politique peuvent être considérées à la fois comme des processus coopératifs et compétitifs, selon la perspective :

  • Coopératif : les deux processus poursuivent un objectif commun : trouver la politique optimale et la fonction de valeur optimale. L'évaluation de la politique estime la fonction de valeur pour une politique donnée, tandis que l'amélioration de la politique affine la politique sur la base de ces estimations ;
  • Compétitif : chaque processus a des objectifs contradictoires. L'évaluation de la politique vise à estimer précisément la fonction de valeur pour la politique actuelle, ce qui peut faire en sorte que la politique ne soit plus gloutonne. À l'inverse, l'amélioration de la politique ajuste la politique pour qu'elle soit gloutonne par rapport aux estimations actuelles de la fonction de valeur, ce qui rend généralement ces estimations incorrectes. Cette dynamique de va-et-vient se poursuit jusqu'à ce que la politique et la fonction de valeur convergent vers leurs formes optimales.

Résumé

L'itération de politique généralisée est un cadre utile pour comprendre comment différentes méthodes d'apprentissage par renforcement abordent la résolution des MDP. Dans les prochains chapitres, vous découvrirez comment ces idées peuvent être appliquées pour créer deux méthodes DP essentielles : l'itération de politique et l'itération de valeur.

question mark

Sélectionnez les deux processus qui fonctionnent ensemble dans le cadre de l'itération de politique généralisée

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 6
some-alt