Apprendre Modèle, Politique et Valeurs | Théorie Fondamentale de l'Apprentissage par Renforcement

Modèle

Définition

Un modèle est une représentation de l'environnement qui définit les probabilités de transition entre les états et les récompenses attendues pour les actions effectuées.

Les algorithmes d'apprentissage par renforcement peuvent être divisés en deux catégories :

Basés sur un modèle : dans cette approche, l'agent apprend ou a accès à un modèle de l'environnement, ce qui lui permet de simuler les états futurs et les récompenses avant de prendre des actions. Cela permet à l'agent de planifier et de prendre des décisions plus éclairées ;
Sans modèle : dans cette approche, l'agent ne dispose pas d'un modèle direct de l'environnement. Il apprend uniquement par l'interaction avec l'environnement, en s'appuyant sur l'essai-erreur pour découvrir les meilleures actions.

En pratique, les environnements avec des modèles explicites sont rares, ce qui rend difficile pour les agents de s'appuyer sur des stratégies basées sur un modèle. En conséquence, les approches sans modèle sont devenues plus répandues et largement étudiées dans la recherche et les applications en apprentissage par renforcement.

Politique

Définition

Politique $\pi$ désigne la stratégie qu'un agent suit pour déterminer ses actions en fonction de l'état actuel de l'environnement.

Il existe deux types de politiques :

Politique déterministe : l'agent sélectionne toujours la même action pour un état donné ;
Politique stochastique : l'agent sélectionne les actions selon des distributions de probabilité.

Au cours du processus d'apprentissage, l'objectif de l'agent est de trouver une politique optimale. Une politique optimale est celle qui maximise le retour attendu, guidant l'agent à prendre les meilleures décisions possibles dans chaque état donné.

Fonctions de valeur

Les fonctions de valeur sont essentielles pour comprendre comment un agent évalue le potentiel d'un état ou d'un couple état-action particulier. Elles sont utilisées pour estimer les récompenses attendues futures, aidant ainsi l'agent à prendre des décisions éclairées.

Fonction de valeur d'état

Définition

Fonction de valeur d'état $V$ (ou $v$ ) : fonction fournissant le rendement attendu d'être dans un état particulier et de suivre une politique spécifique. Permet d'évaluer la désirabilité des états.

La valeur d'un état peut s'exprimer mathématiquement ainsi :

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Fonction de valeur état-action

Définition

Fonction de valeur état-action $Q$ (ou $q$ ) est une fonction qui fournit le rendement attendu de la prise d'une action particulière dans un état donné et du suivi d'une politique spécifique par la suite. Elle permet d'évaluer la désirabilité des actions dans les états.

La fonction de valeur état-action est souvent appelée fonction de valeur d'action.

La valeur d'une action peut s'exprimer mathématiquement ainsi :

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relation entre le modèle, la politique et les fonctions de valeur

Les concepts de modèle, politique et fonctions de valeur sont étroitement liés, formant un cadre complet pour la catégorisation des algorithmes d'apprentissage par renforcement. Ce cadre est défini par deux axes principaux :

Cible d'apprentissage : cet axe représente le spectre des algorithmes RL selon leur dépendance aux fonctions de valeur, aux fonctions de politique, ou à une combinaison des deux ;
Application du modèle : cet axe distingue les algorithmes selon qu'ils utilisent un modèle de l'environnement ou qu'ils apprennent uniquement par interaction.

En combinant ces dimensions, il est possible de classer les algorithmes RL en catégories distinctes, chacune ayant ses propres caractéristiques et cas d'utilisation idéaux. Comprendre ces relations aide à sélectionner l'algorithme approprié pour des tâches spécifiques, garantissant des processus d'apprentissage et de prise de décision efficaces.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

Modèle

Définition

Un modèle est une représentation de l'environnement qui définit les probabilités de transition entre les états et les récompenses attendues pour les actions effectuées.

Les algorithmes d'apprentissage par renforcement peuvent être divisés en deux catégories :

Basés sur un modèle : dans cette approche, l'agent apprend ou a accès à un modèle de l'environnement, ce qui lui permet de simuler les états futurs et les récompenses avant de prendre des actions. Cela permet à l'agent de planifier et de prendre des décisions plus éclairées ;
Sans modèle : dans cette approche, l'agent ne dispose pas d'un modèle direct de l'environnement. Il apprend uniquement par l'interaction avec l'environnement, en s'appuyant sur l'essai-erreur pour découvrir les meilleures actions.

Politique

Définition

Politique $\pi$ désigne la stratégie qu'un agent suit pour déterminer ses actions en fonction de l'état actuel de l'environnement.

Il existe deux types de politiques :

Politique déterministe : l'agent sélectionne toujours la même action pour un état donné ;
Politique stochastique : l'agent sélectionne les actions selon des distributions de probabilité.

Fonctions de valeur

Fonction de valeur d'état

Définition

La valeur d'un état peut s'exprimer mathématiquement ainsi :

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Fonction de valeur état-action

Définition

La fonction de valeur état-action est souvent appelée fonction de valeur d'action.

La valeur d'une action peut s'exprimer mathématiquement ainsi :

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relation entre le modèle, la politique et les fonctions de valeur

Cible d'apprentissage : cet axe représente le spectre des algorithmes RL selon leur dépendance aux fonctions de valeur, aux fonctions de politique, ou à une combinaison des deux ;
Application du modèle : cet axe distingue les algorithmes selon qu'ils utilisent un modèle de l'environnement ou qu'ils apprennent uniquement par interaction.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 5