Itération de Politique
L'idée derrière l'itération de politique est simple :
- Prendre une politique initiale π et une fonction de valeur v ;
- Utiliser l'évaluation de politique pour mettre à jour v jusqu'à ce qu'elle soit cohérente avec π ;
- Utiliser l'amélioration de politique pour mettre à jour π jusqu'à ce qu'elle soit gloutonne par rapport à v ;
- Répéter les étapes 2-3 jusqu'à convergence.
Dans cette méthode, il n'y a aucune mise à jour partielle :
- Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
- Lors de l'amélioration de politique, la politique devient gloutonne par rapport à la fonction de valeur.
Pseudocode
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 7
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Itération de Politique
Glissez pour afficher le menu
L'idée derrière l'itération de politique est simple :
- Prendre une politique initiale π et une fonction de valeur v ;
- Utiliser l'évaluation de politique pour mettre à jour v jusqu'à ce qu'elle soit cohérente avec π ;
- Utiliser l'amélioration de politique pour mettre à jour π jusqu'à ce qu'elle soit gloutonne par rapport à v ;
- Répéter les étapes 2-3 jusqu'à convergence.
Dans cette méthode, il n'y a aucune mise à jour partielle :
- Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
- Lors de l'amélioration de politique, la politique devient gloutonne par rapport à la fonction de valeur.
Pseudocode
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 7