Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
1. Théorie Fondamentale de l'Apprentissage par Renforcement
5. Apprentissage par Différence Temporelle
Itération de Politique
L'idée derrière l'itération de politique est simple :
- Prendre une politique initiale et une fonction de valeur ;
- Utiliser l'évaluation de politique pour mettre à jour jusqu'à ce qu'elle soit cohérente avec ;
- Utiliser l'amélioration de politique pour mettre à jour jusqu'à ce qu'elle soit gloutonne par rapport à ;
- Répéter les étapes 2-3 jusqu'à convergence.
Dans cette méthode, il n'y a aucune mise à jour partielle :
- Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
- Lors de l'amélioration de politique, la politique devient gloutonne par rapport à la fonction de valeur.
Pseudocode
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 7