Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Estimation de la Fonction de Valeur | Méthodes de Monte Carlo
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Estimation de la Fonction de Valeur

Commençons par revisiter un concept familier : la fonction de valeur d'état, notée vπ(s)v_\pi(s). Elle peut être définie comme

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

L'objectif de ce chapitre est d'estimer cette fonction à partir des données, en supposant qu'une politique fixe π\pi est donnée mais sans accès au modèle de l'environnement.

Estimation Monte Carlo

Les méthodes Monte Carlo abordent cette tâche d'estimation en échantillonnant des épisodes d'expérience sous la politique π\pi, puis en utilisant ces échantillons pour former des estimations empiriques de vπ(s)v_\pi(s).

De manière générale, le processus peut être divisé en les étapes suivantes :

  1. Générer un épisode en utilisant la politique π\pi ;
  2. Enregistrer la valeur de retour obtenue pour chaque état apparaissant dans l'épisode ;
  3. Répéter les étapes 1-2 pendant un certain temps ;
  4. Calculer les nouvelles valeurs en moyennant les retours pour chaque état.

Collecte des rendements

L'estimation Monte Carlo de la fonction de valeur nécessite la collecte des rendements issus des épisodes générés. Pour calculer ces rendements, deux approches principales peuvent être utilisées :

  • Première visite : pour chaque état ss rencontré dans un épisode, seul le rendement suivant sa première apparition est pris en compte. Les occurrences ultérieures du même état au sein du même épisode sont ignorées pour l'estimation ;
  • Chaque visite : chaque occurrence d'un état ss dans un épisode est utilisée. Autrement dit, le rendement suivant chaque visite de l'état est inclus dans l'estimation, même si l'état apparaît plusieurs fois dans le même épisode.

Démarrages exploratoires

Imaginez un monde simple unidimensionnel représenté par une ligne s'étendant de -10 à +10. L'agent commence à la position 0, et sa politique actuelle dicte qu'il se déplace toujours vers la droite à chaque étape temporelle.

Si nous essayons de générer des épisodes sous cette politique, que se passe-t-il ? L'agent se déplacera continuellement vers l'extrémité positive de la ligne — visitant des états comme 1, 2, 3, etc. — mais il ne visitera jamais les états négatifs. Par conséquent, nous ne pouvons pas estimer les fonctions de valeur pour les états situés à gauche de l'origine, simplement parce que l'agent ne les expérimente jamais.

Le principal problème est donc le suivant : si certaines parties de l'espace d'états ne sont jamais explorées, leurs estimations de valeur resteront inexactes ou indéfinies. Une solution courante à ce problème est l'utilisation des démarrages exploratoires.

Avec les démarrages exploratoires, chaque épisode ne commence pas à un état de départ fixe comme 0, mais à un état sélectionné aléatoirement. Une fois l'épisode commencé, l'agent suit sa politique actuelle comme d'habitude. Au fil du temps, en commençant depuis de nombreux points différents de l'espace d'états, l'agent est capable de visiter tous les états — pas seulement ceux vers lesquels sa politique le conduirait naturellement. Cela permet à la méthode de Monte Carlo de produire des estimations de valeur plus précises et complètes pour l'ensemble de l'espace d'états.

Pseudocode

Ce pseudocode utilise l’approche chaque-visite ainsi que les démarrages exploratoires.

1. En quoi la méthode MC première-visite diffère-t-elle de la méthode MC chaque-visite ?

2. Quel est le principal avantage de l’utilisation des démarrages exploratoires dans les méthodes Monte Carlo ?

question mark

En quoi la méthode MC première-visite diffère-t-elle de la méthode MC chaque-visite ?

Select the correct answer

question mark

Quel est le principal avantage de l’utilisation des démarrages exploratoires dans les méthodes Monte Carlo ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Estimation de la Fonction de Valeur

Commençons par revisiter un concept familier : la fonction de valeur d'état, notée vπ(s)v_\pi(s). Elle peut être définie comme

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi [ G_t | S_t = s]

L'objectif de ce chapitre est d'estimer cette fonction à partir des données, en supposant qu'une politique fixe π\pi est donnée mais sans accès au modèle de l'environnement.

Estimation Monte Carlo

Les méthodes Monte Carlo abordent cette tâche d'estimation en échantillonnant des épisodes d'expérience sous la politique π\pi, puis en utilisant ces échantillons pour former des estimations empiriques de vπ(s)v_\pi(s).

De manière générale, le processus peut être divisé en les étapes suivantes :

  1. Générer un épisode en utilisant la politique π\pi ;
  2. Enregistrer la valeur de retour obtenue pour chaque état apparaissant dans l'épisode ;
  3. Répéter les étapes 1-2 pendant un certain temps ;
  4. Calculer les nouvelles valeurs en moyennant les retours pour chaque état.

Collecte des rendements

L'estimation Monte Carlo de la fonction de valeur nécessite la collecte des rendements issus des épisodes générés. Pour calculer ces rendements, deux approches principales peuvent être utilisées :

  • Première visite : pour chaque état ss rencontré dans un épisode, seul le rendement suivant sa première apparition est pris en compte. Les occurrences ultérieures du même état au sein du même épisode sont ignorées pour l'estimation ;
  • Chaque visite : chaque occurrence d'un état ss dans un épisode est utilisée. Autrement dit, le rendement suivant chaque visite de l'état est inclus dans l'estimation, même si l'état apparaît plusieurs fois dans le même épisode.

Démarrages exploratoires

Imaginez un monde simple unidimensionnel représenté par une ligne s'étendant de -10 à +10. L'agent commence à la position 0, et sa politique actuelle dicte qu'il se déplace toujours vers la droite à chaque étape temporelle.

Si nous essayons de générer des épisodes sous cette politique, que se passe-t-il ? L'agent se déplacera continuellement vers l'extrémité positive de la ligne — visitant des états comme 1, 2, 3, etc. — mais il ne visitera jamais les états négatifs. Par conséquent, nous ne pouvons pas estimer les fonctions de valeur pour les états situés à gauche de l'origine, simplement parce que l'agent ne les expérimente jamais.

Le principal problème est donc le suivant : si certaines parties de l'espace d'états ne sont jamais explorées, leurs estimations de valeur resteront inexactes ou indéfinies. Une solution courante à ce problème est l'utilisation des démarrages exploratoires.

Avec les démarrages exploratoires, chaque épisode ne commence pas à un état de départ fixe comme 0, mais à un état sélectionné aléatoirement. Une fois l'épisode commencé, l'agent suit sa politique actuelle comme d'habitude. Au fil du temps, en commençant depuis de nombreux points différents de l'espace d'états, l'agent est capable de visiter tous les états — pas seulement ceux vers lesquels sa politique le conduirait naturellement. Cela permet à la méthode de Monte Carlo de produire des estimations de valeur plus précises et complètes pour l'ensemble de l'espace d'états.

Pseudocode

Ce pseudocode utilise l’approche chaque-visite ainsi que les démarrages exploratoires.

1. En quoi la méthode MC première-visite diffère-t-elle de la méthode MC chaque-visite ?

2. Quel est le principal avantage de l’utilisation des démarrages exploratoires dans les méthodes Monte Carlo ?

question mark

En quoi la méthode MC première-visite diffère-t-elle de la méthode MC chaque-visite ?

Select the correct answer

question mark

Quel est le principal avantage de l’utilisation des démarrages exploratoires dans les méthodes Monte Carlo ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
some-alt