Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Processus de Décision de Markov
Le processus de décision de Markov (MDP) est un cadre mathématique utilisé pour modéliser les problèmes de prise de décision où un agent interagit avec un environnement au fil du temps.
Les problèmes d’apprentissage par renforcement sont souvent formulés comme des MDP, qui offrent une manière structurée de définir le problème. Les MDP décrivent l’environnement à l’aide de quatre composants clés : états, actions, transitions et récompenses. Ces composants fonctionnent ensemble selon la propriété de Markov, qui garantit que l’état futur dépend uniquement de l’état courant et de l’action, et non des états passés.
Les quatre composants
État
Un état est une représentation de l'environnement à un instant donné. L'ensemble de tous les états possibles est appelé espace des états .
Un état est généralement représenté par un ensemble de paramètres qui capturent les caractéristiques pertinentes de l'environnement. Ces paramètres peuvent inclure divers aspects tels que la position, la vitesse, la rotation, etc.
Action
Une action est une décision ou un mouvement effectué par l'agent pour influencer l'environnement. L'ensemble de toutes les actions possibles est appelé espace d'actions .
L'ensemble des actions possibles dépend généralement de l'état actuel.
Transition
Transition décrit comment l'état de l'environnement évolue en réponse à l'action de l'agent. La fonction de transition spécifie la probabilité de passer d'un état à un autre, étant donné une action spécifique.
Dans de nombreux cas, les environnements peuvent être soit déterministes, soit stochastiques, ce qui signifie que la transition peut être prévisible ou impliquer un certain degré d'aléa.
Récompense
Une récompense est une valeur numérique reçue par l’agent après avoir effectué une action dans un état particulier. La fonction qui associe les transitions aux récompenses attendues est appelée la fonction de récompense .
Les récompenses orientent l’agent vers un comportement souhaitable, et peuvent être positives ou négatives. L’ingénierie des récompenses est complexe, car l’agent peut tenter d’exploiter les récompenses.
Propriété de Markov
La propriété de Markov dans un processus de décision de Markov stipule que le prochain état et la récompense dépendent uniquement de l'état courant et de l'action courante, et non des informations passées. Cela garantit un cadre sans mémoire, simplifiant ainsi le processus d'apprentissage.
Mathématiquement, cette propriété peut être décrite par la formule suivante :
où :
- est un état à l'instant ;
- est une action effectuée à l'instant ;
- est une récompense à l'instant .
La nature sans mémoire du MDP ne signifie pas que les observations passées sont ignorées. L'état courant doit encoder toutes les informations historiques pertinentes.
Merci pour vos commentaires !