Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Itération de Politique | Programmation Dynamique
Quizzes & Challenges
Quizzes
Challenges
/
Introduction à l'Apprentissage par Renforcement avec Python

bookItération de Politique

L'idée derrière l'itération de politique est simple :

  1. Prendre une politique initiale π\pi et une fonction de valeur vv ;
  2. Utiliser l'évaluation de politique pour mettre à jour vv jusqu'à ce qu'elle soit cohérente avec π\pi ;
  3. Utiliser l'amélioration de politique pour mettre à jour π\pi jusqu'à ce qu'elle soit cupide par rapport à vv ;
  4. Répéter les étapes 2-3 jusqu'à convergence.

Dans cette méthode, il n'y a aucune mise à jour partielle :

  • Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
  • Lors de l'amélioration de politique, la politique devient cupide par rapport à la fonction de valeur.

Pseudocode

question mark

D'après le pseudocode, quelle condition provoque l'arrêt de la boucle externe de l'itération de politique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 7

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

What does it mean for a policy to be "greedy" with respect to a value function?

Can you walk me through the pseudocode step by step?

bookItération de Politique

Glissez pour afficher le menu

L'idée derrière l'itération de politique est simple :

  1. Prendre une politique initiale π\pi et une fonction de valeur vv ;
  2. Utiliser l'évaluation de politique pour mettre à jour vv jusqu'à ce qu'elle soit cohérente avec π\pi ;
  3. Utiliser l'amélioration de politique pour mettre à jour π\pi jusqu'à ce qu'elle soit cupide par rapport à vv ;
  4. Répéter les étapes 2-3 jusqu'à convergence.

Dans cette méthode, il n'y a aucune mise à jour partielle :

  • Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
  • Lors de l'amélioration de politique, la politique devient cupide par rapport à la fonction de valeur.

Pseudocode

question mark

D'après le pseudocode, quelle condition provoque l'arrêt de la boucle externe de l'itération de politique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 7
some-alt