Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Processus de Décision de Markov | Théorie Fondamentale de l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Processus de Décision de Markov

Note
Définition

Le processus de décision de Markov (MDP) est un cadre mathématique utilisé pour modéliser les problèmes de prise de décision où un agent interagit avec un environnement au fil du temps.

Les problèmes d’apprentissage par renforcement sont souvent formulés comme des MDP, qui offrent une manière structurée de définir le problème. Les MDP décrivent l’environnement à l’aide de quatre composants clés : états, actions, transitions et récompenses. Ces composants fonctionnent ensemble selon la propriété de Markov, qui garantit que l’état futur dépend uniquement de l’état courant et de l’action, et non des états passés.

Les quatre composants

État

Note
Définition

Un état ss est une représentation de l'environnement à un instant donné. L'ensemble de tous les états possibles est appelé espace des états SS.

Un état est généralement représenté par un ensemble de paramètres qui capturent les caractéristiques pertinentes de l'environnement. Ces paramètres peuvent inclure divers aspects tels que la position, la vitesse, la rotation, etc.

Action

Note
Définition

Une action aa est une décision ou un mouvement effectué par l'agent pour influencer l'environnement. L'ensemble de toutes les actions possibles est appelé espace d'actions AA.

L'ensemble des actions possibles dépend généralement de l'état actuel.

Transition

Note
Définition

Transition décrit comment l'état de l'environnement évolue en réponse à l'action de l'agent. La fonction de transition pp spécifie la probabilité de passer d'un état à un autre, étant donné une action spécifique.

Dans de nombreux cas, les environnements peuvent être soit déterministes, soit stochastiques, ce qui signifie que la transition peut être prévisible ou impliquer un certain degré d'aléa.

Récompense

Note
Définition

Une récompense rr est une valeur numérique reçue par l’agent après avoir effectué une action dans un état particulier. La fonction qui associe les transitions aux récompenses attendues est appelée la fonction de récompense RR.

Les récompenses orientent l’agent vers un comportement souhaitable, et peuvent être positives ou négatives. L’ingénierie des récompenses est complexe, car l’agent peut tenter d’exploiter les récompenses.

Propriété de Markov

La propriété de Markov dans un processus de décision de Markov stipule que le prochain état et la récompense dépendent uniquement de l'état courant et de l'action courante, et non des informations passées. Cela garantit un cadre sans mémoire, simplifiant ainsi le processus d'apprentissage.

Mathématiquement, cette propriété peut être décrite par la formule suivante :

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

où :

  • StS_t est un état à l'instant tt ;
  • AtA_t est une action effectuée à l'instant tt ;
  • RtR_t est une récompense à l'instant tt.
Note
Remarque

La nature sans mémoire du MDP ne signifie pas que les observations passées sont ignorées. L'état courant doit encoder toutes les informations historiques pertinentes.

question mark

Imaginez que l'agent joue à un jeu. Laquelle de ces propositions représente correctement l'état de l'environnement dans un MDP ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Processus de Décision de Markov

Note
Définition

Le processus de décision de Markov (MDP) est un cadre mathématique utilisé pour modéliser les problèmes de prise de décision où un agent interagit avec un environnement au fil du temps.

Les problèmes d’apprentissage par renforcement sont souvent formulés comme des MDP, qui offrent une manière structurée de définir le problème. Les MDP décrivent l’environnement à l’aide de quatre composants clés : états, actions, transitions et récompenses. Ces composants fonctionnent ensemble selon la propriété de Markov, qui garantit que l’état futur dépend uniquement de l’état courant et de l’action, et non des états passés.

Les quatre composants

État

Note
Définition

Un état ss est une représentation de l'environnement à un instant donné. L'ensemble de tous les états possibles est appelé espace des états SS.

Un état est généralement représenté par un ensemble de paramètres qui capturent les caractéristiques pertinentes de l'environnement. Ces paramètres peuvent inclure divers aspects tels que la position, la vitesse, la rotation, etc.

Action

Note
Définition

Une action aa est une décision ou un mouvement effectué par l'agent pour influencer l'environnement. L'ensemble de toutes les actions possibles est appelé espace d'actions AA.

L'ensemble des actions possibles dépend généralement de l'état actuel.

Transition

Note
Définition

Transition décrit comment l'état de l'environnement évolue en réponse à l'action de l'agent. La fonction de transition pp spécifie la probabilité de passer d'un état à un autre, étant donné une action spécifique.

Dans de nombreux cas, les environnements peuvent être soit déterministes, soit stochastiques, ce qui signifie que la transition peut être prévisible ou impliquer un certain degré d'aléa.

Récompense

Note
Définition

Une récompense rr est une valeur numérique reçue par l’agent après avoir effectué une action dans un état particulier. La fonction qui associe les transitions aux récompenses attendues est appelée la fonction de récompense RR.

Les récompenses orientent l’agent vers un comportement souhaitable, et peuvent être positives ou négatives. L’ingénierie des récompenses est complexe, car l’agent peut tenter d’exploiter les récompenses.

Propriété de Markov

La propriété de Markov dans un processus de décision de Markov stipule que le prochain état et la récompense dépendent uniquement de l'état courant et de l'action courante, et non des informations passées. Cela garantit un cadre sans mémoire, simplifiant ainsi le processus d'apprentissage.

Mathématiquement, cette propriété peut être décrite par la formule suivante :

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

où :

  • StS_t est un état à l'instant tt ;
  • AtA_t est une action effectuée à l'instant tt ;
  • RtR_t est une récompense à l'instant tt.
Note
Remarque

La nature sans mémoire du MDP ne signifie pas que les observations passées sont ignorées. L'état courant doit encoder toutes les informations historiques pertinentes.

question mark

Imaginez que l'agent joue à un jeu. Laquelle de ces propositions représente correctement l'état de l'environnement dans un MDP ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 3
some-alt