Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Modèle, Politique et Valeurs
Modèle
Un modèle est une représentation de l'environnement qui définit les probabilités de transition entre les états et les récompenses attendues pour les actions effectuées.
Les algorithmes d'apprentissage par renforcement peuvent être divisés en deux catégories :
- Basés sur un modèle : dans cette approche, l'agent apprend ou a accès à un modèle de l'environnement, ce qui lui permet de simuler les états futurs et les récompenses avant de prendre des actions. Cela permet à l'agent de planifier et de prendre des décisions plus éclairées ;
- Sans modèle : dans cette approche, l'agent ne dispose pas d'un modèle direct de l'environnement. Il apprend uniquement par l'interaction avec l'environnement, en s'appuyant sur l'essai-erreur pour découvrir les meilleures actions.
En pratique, les environnements avec des modèles explicites sont rares, ce qui rend difficile pour les agents de s'appuyer sur des stratégies basées sur un modèle. En conséquence, les approches sans modèle sont devenues plus courantes et largement étudiées dans la recherche et les applications en apprentissage par renforcement.
Politique
Politique : stratégie suivie par un agent pour déterminer ses actions en fonction de l'état actuel de l'environnement.
Il existe deux types de politiques :
- Politique déterministe : l'agent sélectionne toujours la même action pour un état donné ;
- Politique stochastique : l'agent sélectionne les actions selon des distributions de probabilité.
Au cours du processus d'apprentissage, l'objectif de l'agent est de trouver une politique optimale. Une politique optimale est celle qui maximise le rendement attendu, guidant l'agent à prendre les meilleures décisions possibles dans chaque état donné.
Fonctions de valeur
Les fonctions de valeur sont essentielles pour comprendre comment un agent évalue le potentiel d'un état ou d'une paire état-action. Elles sont utilisées pour estimer les récompenses attendues futures, aidant ainsi l'agent à prendre des décisions éclairées.
Fonction de valeur d'état
Fonction de valeur d'état (ou ) : fonction qui fournit le rendement attendu d'être dans un état particulier et de suivre une politique spécifique. Elle permet d'évaluer la désirabilité des états.
La valeur d'un état peut s'exprimer mathématiquement ainsi :
Fonction de valeur état-action
Fonction de valeur état-action (ou ) est une fonction qui fournit le rendement attendu lors de la prise d'une action particulière dans un état donné et en suivant ensuite une politique spécifique. Elle permet d'évaluer la désirabilité des actions dans les états.
La fonction de valeur état-action est souvent appelée fonction de valeur d'action.
La valeur d'une action peut s'exprimer mathématiquement ainsi :
Relation entre le modèle, la politique et les fonctions de valeur
Les concepts de modèle, politique et fonctions de valeur sont étroitement liés, formant un cadre complet pour la catégorisation des algorithmes d'apprentissage par renforcement. Ce cadre est défini par deux axes principaux :
- Cible d'apprentissage : cet axe représente le spectre des algorithmes RL selon leur dépendance aux fonctions de valeur, aux fonctions de politique, ou à une combinaison des deux ;
- Application du modèle : cet axe distingue les algorithmes selon qu'ils utilisent un modèle de l'environnement ou apprennent uniquement par interaction.
En combinant ces dimensions, il est possible de classer les algorithmes RL en catégories distinctes, chacune ayant ses propres caractéristiques et cas d'utilisation idéaux. Comprendre ces relations aide à sélectionner l'algorithme approprié pour des tâches spécifiques, garantissant des processus d'apprentissage et de prise de décision efficaces.
Merci pour vos commentaires !