Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Modèle, Politique et Valeurs | Théorie Fondamentale de l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Modèle, Politique et Valeurs

Modèle

Note
Définition

Un modèle est une représentation de l'environnement qui définit les probabilités de transition entre les états et les récompenses attendues pour les actions effectuées.

Les algorithmes d'apprentissage par renforcement peuvent être divisés en deux catégories :

  • Basés sur un modèle : dans cette approche, l'agent apprend ou a accès à un modèle de l'environnement, ce qui lui permet de simuler les états futurs et les récompenses avant de prendre des actions. Cela permet à l'agent de planifier et de prendre des décisions plus éclairées ;
  • Sans modèle : dans cette approche, l'agent ne dispose pas d'un modèle direct de l'environnement. Il apprend uniquement par l'interaction avec l'environnement, en s'appuyant sur l'essai-erreur pour découvrir les meilleures actions.

En pratique, les environnements avec des modèles explicites sont rares, ce qui rend difficile pour les agents de s'appuyer sur des stratégies basées sur un modèle. En conséquence, les approches sans modèle sont devenues plus courantes et largement étudiées dans la recherche et les applications en apprentissage par renforcement.

Politique

Note
Définition

Politique π\pi : stratégie suivie par un agent pour déterminer ses actions en fonction de l'état actuel de l'environnement.

Il existe deux types de politiques :

  • Politique déterministe : l'agent sélectionne toujours la même action pour un état donné ;
  • Politique stochastique : l'agent sélectionne les actions selon des distributions de probabilité.

Au cours du processus d'apprentissage, l'objectif de l'agent est de trouver une politique optimale. Une politique optimale est celle qui maximise le rendement attendu, guidant l'agent à prendre les meilleures décisions possibles dans chaque état donné.

Fonctions de valeur

Les fonctions de valeur sont essentielles pour comprendre comment un agent évalue le potentiel d'un état ou d'une paire état-action. Elles sont utilisées pour estimer les récompenses attendues futures, aidant ainsi l'agent à prendre des décisions éclairées.

Fonction de valeur d'état

Note
Définition

Fonction de valeur d'état VV (ou vv) : fonction qui fournit le rendement attendu d'être dans un état particulier et de suivre une politique spécifique. Elle permet d'évaluer la désirabilité des états.

La valeur d'un état peut s'exprimer mathématiquement ainsi :

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Fonction de valeur état-action

Note
Définition

Fonction de valeur état-action QQ (ou qq) est une fonction qui fournit le rendement attendu lors de la prise d'une action particulière dans un état donné et en suivant ensuite une politique spécifique. Elle permet d'évaluer la désirabilité des actions dans les états.

La fonction de valeur état-action est souvent appelée fonction de valeur d'action.

La valeur d'une action peut s'exprimer mathématiquement ainsi :

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relation entre le modèle, la politique et les fonctions de valeur

Les concepts de modèle, politique et fonctions de valeur sont étroitement liés, formant un cadre complet pour la catégorisation des algorithmes d'apprentissage par renforcement. Ce cadre est défini par deux axes principaux :

  • Cible d'apprentissage : cet axe représente le spectre des algorithmes RL selon leur dépendance aux fonctions de valeur, aux fonctions de politique, ou à une combinaison des deux ;
  • Application du modèle : cet axe distingue les algorithmes selon qu'ils utilisent un modèle de l'environnement ou apprennent uniquement par interaction.

En combinant ces dimensions, il est possible de classer les algorithmes RL en catégories distinctes, chacune ayant ses propres caractéristiques et cas d'utilisation idéaux. Comprendre ces relations aide à sélectionner l'algorithme approprié pour des tâches spécifiques, garantissant des processus d'apprentissage et de prise de décision efficaces.

question-icon

Remplir les blancs

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Modèle, Politique et Valeurs

Modèle

Note
Définition

Un modèle est une représentation de l'environnement qui définit les probabilités de transition entre les états et les récompenses attendues pour les actions effectuées.

Les algorithmes d'apprentissage par renforcement peuvent être divisés en deux catégories :

  • Basés sur un modèle : dans cette approche, l'agent apprend ou a accès à un modèle de l'environnement, ce qui lui permet de simuler les états futurs et les récompenses avant de prendre des actions. Cela permet à l'agent de planifier et de prendre des décisions plus éclairées ;
  • Sans modèle : dans cette approche, l'agent ne dispose pas d'un modèle direct de l'environnement. Il apprend uniquement par l'interaction avec l'environnement, en s'appuyant sur l'essai-erreur pour découvrir les meilleures actions.

En pratique, les environnements avec des modèles explicites sont rares, ce qui rend difficile pour les agents de s'appuyer sur des stratégies basées sur un modèle. En conséquence, les approches sans modèle sont devenues plus courantes et largement étudiées dans la recherche et les applications en apprentissage par renforcement.

Politique

Note
Définition

Politique π\pi : stratégie suivie par un agent pour déterminer ses actions en fonction de l'état actuel de l'environnement.

Il existe deux types de politiques :

  • Politique déterministe : l'agent sélectionne toujours la même action pour un état donné ;
  • Politique stochastique : l'agent sélectionne les actions selon des distributions de probabilité.

Au cours du processus d'apprentissage, l'objectif de l'agent est de trouver une politique optimale. Une politique optimale est celle qui maximise le rendement attendu, guidant l'agent à prendre les meilleures décisions possibles dans chaque état donné.

Fonctions de valeur

Les fonctions de valeur sont essentielles pour comprendre comment un agent évalue le potentiel d'un état ou d'une paire état-action. Elles sont utilisées pour estimer les récompenses attendues futures, aidant ainsi l'agent à prendre des décisions éclairées.

Fonction de valeur d'état

Note
Définition

Fonction de valeur d'état VV (ou vv) : fonction qui fournit le rendement attendu d'être dans un état particulier et de suivre une politique spécifique. Elle permet d'évaluer la désirabilité des états.

La valeur d'un état peut s'exprimer mathématiquement ainsi :

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Fonction de valeur état-action

Note
Définition

Fonction de valeur état-action QQ (ou qq) est une fonction qui fournit le rendement attendu lors de la prise d'une action particulière dans un état donné et en suivant ensuite une politique spécifique. Elle permet d'évaluer la désirabilité des actions dans les états.

La fonction de valeur état-action est souvent appelée fonction de valeur d'action.

La valeur d'une action peut s'exprimer mathématiquement ainsi :

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relation entre le modèle, la politique et les fonctions de valeur

Les concepts de modèle, politique et fonctions de valeur sont étroitement liés, formant un cadre complet pour la catégorisation des algorithmes d'apprentissage par renforcement. Ce cadre est défini par deux axes principaux :

  • Cible d'apprentissage : cet axe représente le spectre des algorithmes RL selon leur dépendance aux fonctions de valeur, aux fonctions de politique, ou à une combinaison des deux ;
  • Application du modèle : cet axe distingue les algorithmes selon qu'ils utilisent un modèle de l'environnement ou apprennent uniquement par interaction.

En combinant ces dimensions, il est possible de classer les algorithmes RL en catégories distinctes, chacune ayant ses propres caractéristiques et cas d'utilisation idéaux. Comprendre ces relations aide à sélectionner l'algorithme approprié pour des tâches spécifiques, garantissant des processus d'apprentissage et de prise de décision efficaces.

question-icon

Remplir les blancs

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5
some-alt