Apprendre Processus de Décision de Markov | Théorie Fondamentale de l'Apprentissage par Renforcement

Définition

Processus de décision de Markov (MDP), cadre mathématique utilisé pour modéliser les problèmes de prise de décision dans lesquels un agent interagit avec un environnement au fil du temps.

Les problèmes d’apprentissage par renforcement sont souvent formulés comme des MDP, qui offrent une manière structurée de définir le problème. Les MDP décrivent l’environnement à l’aide de quatre composants clés : états, actions, transitions et récompenses. Ces composants fonctionnent ensemble selon la propriété de Markov, qui garantit que l’état futur dépend uniquement de l’état courant et de l’action, et non des états passés.

Les quatre composants

État

Définition

Un état $s$ est une représentation de l'environnement à un instant donné. L'ensemble de tous les états possibles est appelé espace des états $S$ .

Un état est généralement représenté par un ensemble de paramètres qui capturent les caractéristiques pertinentes de l'environnement. Ces paramètres peuvent inclure divers aspects tels que la position, la vitesse, la rotation, etc.

Action

Définition

Une action $a$ est une décision ou un mouvement effectué par l’agent afin d’influencer l’environnement. L’ensemble de toutes les actions possibles est appelé espace d’actions $A$ .

L’ensemble des actions possibles dépend généralement de l’état courant.

Transition

Définition

Transition décrit comment l'état de l'environnement évolue en réponse à l'action de l'agent. La fonction de transition $p$ spécifie la probabilité de passer d'un état à un autre, étant donné une action spécifique.

Dans de nombreux cas, les environnements peuvent être soit déterministes, soit stochastiques, ce qui signifie que la transition peut être prévisible ou peut impliquer un certain degré d'aléa.

Récompense

Définition

Une récompense $r$ est une valeur numérique reçue par l’agent après avoir effectué une action dans un certain état. La fonction qui associe les transitions aux récompenses attendues est appelée la fonction de récompense $R$ .

Les récompenses orientent l’agent vers un comportement souhaitable, et peuvent être positives ou négatives. L’ingénierie des récompenses est complexe, car l’agent peut tenter d’exploiter les récompenses.

Propriété de Markov

La propriété de Markov dans un processus de décision de Markov stipule que le prochain état et la récompense dépendent uniquement de l’état courant et de l’action courante, et non des informations passées. Cela garantit un cadre sans mémoire, simplifiant ainsi le processus d’apprentissage.

Mathématiquement, cette propriété peut être décrite par la formule suivante :

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

où :

$S_t$ est un état à l’instant $t$ ;
$A_t$ est une action effectuée à l’instant $t$ ;
$R_t$ est une récompense à l’instant $t$ .

Remarque

La nature sans mémoire du MDP ne signifie pas que les observations passées sont ignorées. L’état courant doit encoder toutes les informations historiques pertinentes.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain more about how the Markov property simplifies reinforcement learning?

What are some examples of states, actions, transitions, and rewards in real-world problems?

How does reward engineering impact the behavior of reinforcement learning agents?

Glissez pour afficher le menu

Définition

Les quatre composants

État

Définition

Un état $s$ est une représentation de l'environnement à un instant donné. L'ensemble de tous les états possibles est appelé espace des états $S$ .

Action

Définition

L’ensemble des actions possibles dépend généralement de l’état courant.

Transition

Définition

Récompense

Définition

Propriété de Markov

Mathématiquement, cette propriété peut être décrite par la formule suivante :

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

où :

$S_t$ est un état à l’instant $t$ ;
$A_t$ est une action effectuée à l’instant $t$ ;
$R_t$ est une récompense à l’instant $t$ .

Remarque

La nature sans mémoire du MDP ne signifie pas que les observations passées sont ignorées. L’état courant doit encoder toutes les informations historiques pertinentes.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3