Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Contrôle Monte Carlo Hors Politique
Alors que les méthodes on-policy apprennent en suivant et en améliorant la même politique, les méthodes off-policy introduisent une nuance : elles apprennent à propos d'une politique (la politique cible) tout en suivant une autre (la politique de comportement). Cette séparation est puissante — elle permet d'évaluer ou d'améliorer une politique cible sans avoir à la suivre réellement lors de la collecte des données.
Analogie
Revenons à la boutique de glaces du chapitre précédent. Vous et votre ami entrez, et une fois de plus, les trois parfums familiers sont proposés : chocolat, vanille et fraise. Le chocolat est votre préféré, et votre premier réflexe est de le commander. Mais cette boutique est nouvelle pour vous, et vous n'êtes pas tout à fait sûr que choisir le chocolat soit la meilleure option. Heureusement, votre ami est un grand amateur de glaces qui a visité presque toutes les boutiques de la ville. Vous lui demandez son avis. « Le chocolat ici est correct, » dit-il, « mais crois-moi — la fraise est exceptionnelle. » Ainsi, sur la base de son expérience, vous décidez de laisser de côté votre choix habituel et d'opter pour la fraise à la place.
Cette décision — s'appuyer sur l'expérience de quelqu'un d'autre pour guider son propre choix — constitue l'essence des méthodes hors politique. Il s'agit d'améliorer sa prise de décision en utilisant des données collectées selon le comportement d'autrui. Cela reste de l'exploration — mais guidée par une expérience externe plutôt que par la sienne propre.
Échantillonnage d'importance
Comme l'agent suit la politique de comportement lors de la génération des épisodes, il est nécessaire de prendre en compte la différence entre ce que génère la politique de comportement et ce que générerait la politique cible. C'est ici qu'intervient l'échantillonnage d'importance.
L'échantillonnage d'importance fournit un moyen d'ajuster les retours observés sous la politique de comportement afin qu'ils soient des estimations valides pour la politique cible.
Considérons une trajectoire qui commence à partir d'un certain état et suit une certaine politique jusqu'à ce que l'épisode se termine à un instant . Plus précisément, nous observons :
Quelle est la probabilité que cette trajectoire se produise sous une politique ? Cela dépend à la fois des probabilités d'action de la politique et de la dynamique de transition de l'environnement :
Supposons maintenant que la trajectoire ait en réalité été générée par une politique différente — la politique de comportement . Pour utiliser correctement cette trajectoire afin d'estimer des espérances sous la politique cible , il faut tenir compte de la probabilité relative de cette séquence d'actions sous par rapport à .
C'est ici qu'intervient le rapport d'échantillonnage d'importance. Il est défini comme la vraisemblance relative de la trajectoire sous les deux politiques :
Au final, les probabilités de transition s'annulent, car les deux politiques opèrent dans le même environnement, et la valeur de dépend uniquement des politiques, et non de l'environnement.
Pourquoi c'est important
Le rapport indique comment réajuster le retour observé sous la politique de comportement afin qu'il devienne une estimation non biaisée de ce que le retour aurait été sous la politique cible :
En d'autres termes, même si les données ont été collectées en utilisant , il est toujours possible d'estimer les retours espérés sous — à condition que attribue une probabilité non nulle à chaque action que pourrait choisir (hypothèse de couverture).
Considérations Pratiques
Variance de l'Échantillonnage d'Importance
L'intégration de l'échantillonnage d'importance est conceptuellement simple. Nous ajustons la fonction de valeur d'action estimée en pondérant chaque retour observé par le ratio d'importance correspondant. La formulation la plus simple est la suivante :
où :
- est le ratio d'importance pour la -ème trajectoire débutant à ;
- est le retour de cette trajectoire ;
- est le nombre de visites de .
Ceci est appelé échantillonnage d'importance ordinaire. Il fournit une estimation non biaisée de , mais peut souffrir d'une variance très élevée, en particulier lorsque les politiques de comportement et cible diffèrent significativement.
Pour atténuer le problème de variance, une alternative plus stable peut être utilisée : l'échantillonnage d'importance pondéré. Cette méthode normalise les poids d'importance, ce qui réduit l'impact des grands ratios et conduit à un apprentissage plus stable :
Dans cette version, le numérateur reste la somme pondérée des retours, mais le dénominateur est désormais la somme des poids d'importance, plutôt qu'un simple comptage.
Cela rend l'estimation biaisée, mais le biais diminue à mesure que davantage d'échantillons sont collectés. En pratique, l'échantillonnage d'importance pondéré est préféré en raison de sa variance nettement plus faible et de sa plus grande stabilité numérique.
Politiques
Comme dans le cas on-policy, utilisons des politiques -gloutonnes à la fois pour la politique cible et la politique de comportement .
À première vue, il semble naturel de rendre la politique cible totalement gloutonne — après tout, notre objectif final est une politique gloutonne. En pratique, cependant, cela pose un problème majeur : si à un moment donné pour l'action effectivement choisie par la politique de comportement, le ratio d'échantillonnage d'importance devient nul et le reste de l'épisode est effectivement ignoré.
En utilisant un petit (par exemple, ) dans la politique cible, on s'assure que pour chaque action, donc ne s'annule jamais en cours d'épisode. Une fois l'entraînement terminé, il est trivial de convertir la politique ‑gloutonne apprise en une politique strictement gloutonne. Comme pour l'apprentissage on-policy, il convient de faire décroître dans la politique de comportement, mais cette fois principalement pour la stabilité numérique, car peut toujours devenir nul en cours d'épisode, en raison de la représentation des nombres en informatique.
Pseudocode
Merci pour vos commentaires !