Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Estimation de la Fonction de Valeur
Commençons par revisiter un concept familier : la fonction de valeur d'état, notée . Elle peut être définie comme
L'objectif de ce chapitre est d'estimer cette fonction à partir des données, en supposant qu'une politique fixe est donnée mais sans accès au modèle de l'environnement.
Estimation Monte Carlo
Les méthodes Monte Carlo abordent cette tâche d'estimation en échantillonnant des épisodes d'expérience sous la politique , puis en utilisant ces échantillons pour former des estimations empiriques de .
De manière générale, le processus peut être divisé en les étapes suivantes :
- Générer un épisode en utilisant la politique ;
- Enregistrer la valeur de retour obtenue pour chaque état apparaissant dans l'épisode ;
- Répéter les étapes 1-2 pendant un certain temps ;
- Calculer les nouvelles valeurs en moyennant les retours pour chaque état.
Collecte des rendements
L'estimation Monte Carlo de la fonction de valeur nécessite la collecte des rendements issus des épisodes générés. Pour calculer ces rendements, deux approches principales peuvent être utilisées :
- Première visite : pour chaque état rencontré dans un épisode, seul le rendement suivant sa première apparition est pris en compte. Les occurrences ultérieures du même état au sein du même épisode sont ignorées pour l'estimation ;
- Chaque visite : chaque occurrence d'un état dans un épisode est utilisée. Autrement dit, le rendement suivant chaque visite de l'état est inclus dans l'estimation, même si l'état apparaît plusieurs fois dans le même épisode.
Démarrages exploratoires
Imaginez un monde simple unidimensionnel représenté par une ligne s'étendant de -10 à +10. L'agent commence à la position 0, et sa politique actuelle dicte qu'il se déplace toujours vers la droite à chaque étape temporelle.
Si nous essayons de générer des épisodes sous cette politique, que se passe-t-il ? L'agent se déplacera continuellement vers l'extrémité positive de la ligne — visitant des états comme 1, 2, 3, etc. — mais il ne visitera jamais les états négatifs. Par conséquent, nous ne pouvons pas estimer les fonctions de valeur pour les états situés à gauche de l'origine, simplement parce que l'agent ne les expérimente jamais.
Le principal problème est donc le suivant : si certaines parties de l'espace d'états ne sont jamais explorées, leurs estimations de valeur resteront inexactes ou indéfinies. Une solution courante à ce problème est l'utilisation des démarrages exploratoires.
Avec les démarrages exploratoires, chaque épisode ne commence pas à un état de départ fixe comme 0, mais à un état sélectionné aléatoirement. Une fois l'épisode commencé, l'agent suit sa politique actuelle comme d'habitude. Au fil du temps, en commençant depuis de nombreux points différents de l'espace d'états, l'agent est capable de visiter tous les états — pas seulement ceux vers lesquels sa politique le conduirait naturellement. Cela permet à la méthode de Monte Carlo de produire des estimations de valeur plus précises et complètes pour l'ensemble de l'espace d'états.
Pseudocode
Ce pseudocode utilise l’approche chaque-visite ainsi que les démarrages exploratoires.
1. En quoi la méthode MC première-visite diffère-t-elle de la méthode MC chaque-visite ?
2. Quel est le principal avantage de l’utilisation des démarrages exploratoires dans les méthodes Monte Carlo ?
Merci pour vos commentaires !