Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

L'idée derrière **l'itération de politique** est simple :
1. Prendre une politique initiale $$\pi$$ et une fonction de valeur $$v$$ ;
2. Utiliser l'évaluation de politique pour mettre à jour $$v$$ jusqu'à ce qu'elle soit cohérente avec $$\pi$$ ;
3. Utiliser l'amélioration de politique pour mettre à jour $$\pi$$ jusqu'à ce qu'elle soit cupide par rapport à $$v$$ ;
4. Répéter les étapes 2-3 jusqu'à convergence.

Dans cette méthode, il n'y a **aucune mise à jour partielle** :
- Lors de **l'évaluation de politique**, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
- Lors de **l'amélioration de politique**, la politique devient cupide par rapport à la fonction de valeur.

D'après le pseudocode, quelle condition provoque l'arrêt de la boucle externe de l'itération de politique ?

L'apprentissage par renforcement (RL) est une branche puissante de l'apprentissage automatique axée sur la formation d'agents intelligents par l'interaction avec leur environnement. Dans ce cours, vous découvrirez comment les agents identifient progressivement des comportements efficaces par essais et erreurs. En commençant par des concepts fondamentaux tels que les processus de décision de Markov et les bandits manchots, vous explorerez la programmation dynamique, les méthodes de Monte Carlo et l'apprentissage par différence temporelle.

Découvrez comment entraîner des agents à prendre des décisions optimales par essais et erreurs. Explorez les principes essentiels de la théorie de l'apprentissage par renforcement. Expérience pratique de configuration et d'exécution d'un environnement Gymnasium.

Maîtrise du compromis exploration-exploitation à travers le problème du bandit manchot. Mise en œuvre de l'estimation de la valeur d'action, des méthodes ε-greedy, borne supérieure de confiance et bandit à gradient. Évaluation des performances des algorithmes sur des tâches simulées de maximisation de récompense.

Maîtrise de la programmation dynamique pour l'apprentissage par renforcement basé sur un modèle. Découverte de l'utilisation des équations de Bellman pour évaluer et améliorer les politiques. Mise en œuvre des algorithmes d'itération de politique et d'itération de valeur. Exploration de l'itération généralisée de politique comme fondement théorique des méthodes sans modèle.

Maîtrise des méthodes de Monte Carlo pour l'apprentissage par renforcement sans modèle. Estimation des fonctions de valeur et dérivation des politiques optimales à partir d'épisodes complets. Implémentation des algorithmes de contrôle Monte Carlo sur et hors politique. Découverte des stratégies d'exploration pour optimiser l'apprentissage sans modèle.

Maîtrise de l'apprentissage par différence temporelle pour l'apprentissage par renforcement sans modèle. Estimation des fonctions de valeur à partir d'épisodes partiels à l'aide des mises à jour TD(0). Implémentation des algorithmes SARSA sur politique et Q-Learning hors politique. Découverte de la combinaison des méthodes Monte Carlo et de l'apprentissage par différence temporelle dans TD à n étapes et TD(λ).

Itération de Politique

Pseudocode

Itération de Politique

Pseudocode