Télécharger le notebook

L'apprentissage par renforcement (RL) est une branche puissante de l'apprentissage automatique axée sur la formation d'agents intelligents par l'interaction avec leur environnement. Dans ce cours, vous découvrirez comment les agents identifient progressivement des comportements efficaces par essais et erreurs. En commençant par des concepts fondamentaux tels que les processus de décision de Markov et les bandits manchots, vous explorerez la programmation dynamique, les méthodes de Monte Carlo et l'apprentissage par différence temporelle.

Découvrez comment entraîner des agents à prendre des décisions optimales par essais et erreurs. Explorez les principes essentiels de la théorie de l'apprentissage par renforcement. Expérience pratique de configuration et d'exécution d'un environnement Gymnasium.

Maîtrise du compromis exploration-exploitation à travers le problème du bandit manchot. Mise en œuvre de l'estimation de la valeur d'action, des méthodes ε-greedy, borne supérieure de confiance et bandit à gradient. Évaluation des performances des algorithmes sur des tâches simulées de maximisation de récompense.

Maîtrise de la programmation dynamique pour l'apprentissage par renforcement basé sur un modèle. Découverte de l'utilisation des équations de Bellman pour évaluer et améliorer les politiques. Mise en œuvre des algorithmes d'itération de politique et d'itération de valeur. Exploration de l'itération généralisée de politique comme fondement théorique des méthodes sans modèle.

Maîtrise des méthodes de Monte Carlo pour l'apprentissage par renforcement sans modèle. Estimation des fonctions de valeur et dérivation des politiques optimales à partir d'épisodes complets. Implémentation des algorithmes de contrôle Monte Carlo sur et hors politique. Découverte des stratégies d'exploration pour optimiser l'apprentissage sans modèle.

Maîtrise de l'apprentissage par différence temporelle pour l'apprentissage par renforcement sans modèle. Estimation des fonctions de valeur à partir d'épisodes partiels à l'aide des mises à jour TD(0). Implémentation des algorithmes SARSA sur politique et Q-Learning hors politique. Découverte de la combinaison des méthodes Monte Carlo et de l'apprentissage par différence temporelle dans TD à n étapes et TD(λ).

Défi : Apprentissage par Différence Temporelle

Défi

Défi : Apprentissage par Différence Temporelle

Défi