Apprendre Contrôle Monte Carlo Hors Politique

Alors que les méthodes on-policy apprennent en suivant et en améliorant la même politique, les méthodes off-policy introduisent une nuance : elles apprennent à propos d'une politique (la politique cible) tout en en suivant une autre (la politique de comportement). Cette séparation est puissante — elle permet d'évaluer ou d'améliorer une politique cible sans avoir à la suivre réellement lors de la collecte des données.

Analogie

Revenons à la boutique de glaces du chapitre précédent. Vous et votre ami entrez, et une fois de plus, les trois parfums familiers sont proposés : chocolat, vanille et fraise. Le chocolat est votre préféré, et votre premier réflexe est de le commander. Mais cette boutique est nouvelle pour vous, et vous n'êtes pas certain que choisir le chocolat soit la meilleure option. Heureusement, votre ami est un grand amateur de glaces qui a visité presque toutes les boutiques de la ville. Vous lui demandez son avis. « Le chocolat ici est correct, » dit-il, « mais crois-moi — la fraise est exceptionnelle. » Ainsi, sur la base de son expérience, vous décidez de laisser de côté votre choix habituel et d'opter pour la fraise à la place.

Cette décision — s'appuyer sur l'expérience d'autrui pour orienter son propre choix — constitue l'essence des méthodes hors politique. Il s'agit d'améliorer la prise de décision à l'aide de données recueillies selon le comportement d'un autre. L'exploration demeure présente — mais elle est guidée par une expérience externe plutôt que par la vôtre.

Échantillonnage d'importance

Comme l'agent suit la politique de comportement lors de la génération des épisodes, il est nécessaire de prendre en compte la différence entre ce que génère la politique de comportement et ce que générerait la politique cible. C'est ici qu'intervient l'échantillonnage d'importance.

L'échantillonnage d'importance permet d'ajuster les retours observés sous la politique de comportement afin qu'ils constituent des estimations valides pour la politique cible.

Considérons une trajectoire qui commence à partir d'un certain état $S_t$ et suit une certaine politique $\pi$ jusqu'à la terminaison de l'épisode à un instant $T$ . Plus précisément, on observe :

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Quelle est la probabilité que cette trajectoire se produise sous une politique $\pi$ ? Cela dépend à la fois des probabilités d'action de la politique et de la dynamique de transition de l'environnement :

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Supposons maintenant que la trajectoire ait en réalité été générée par une politique différente — la politique de comportement $b$ . Pour utiliser correctement cette trajectoire afin d'estimer des espérances sous la politique cible $\pi$ , il faut tenir compte de la probabilité relative de cette séquence d'actions sous $\pi$ par rapport à $b$ .

C'est ici qu'intervient le rapport d'échantillonnage d'importance. Il est défini comme la vraisemblance relative de la trajectoire sous les deux politiques :

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

Finalement, les probabilités de transition s'annulent, car les deux politiques opèrent dans le même environnement, et la valeur de $\rho$ dépend uniquement des politiques, et non de l'environnement.

Pourquoi c'est important

Le rapport $\rho$ indique comment réajuster le retour $G_t$ observé sous la politique de comportement afin qu'il devienne une estimation non biaisée de ce que le retour aurait été sous la politique cible :

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

En d'autres termes, même si les données ont été collectées en utilisant $b$ , il est toujours possible d'estimer les retours espérés sous $\pi$ — à condition que $b$ attribue une probabilité non nulle à chaque action que $\pi$ pourrait choisir (hypothèse de couverture).

Considérations Pratiques

Variance de l'échantillonnage d'importance

L'intégration de l'échantillonnage d'importance est conceptuellement simple. La fonction de valeur d'action estimée $q(s, a)$ est ajustée en pondérant chaque retour observé par le ratio d'échantillonnage d'importance correspondant. La formulation la plus simple est la suivante :

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

où :

$\rho_i(s, a)$ est le ratio d'échantillonnage d'importance pour la $i$ -ème trajectoire débutant en $(s, a)$ ;
$Returns_i(s, a)$ est le retour de cette trajectoire ;
$N(s, a)$ est le nombre de visites de $(s, a)$ .

Ceci est appelé échantillonnage d'importance ordinaire. Il fournit une estimation non biaisée de $q(s, a)$ , mais peut présenter une variance très élevée, en particulier lorsque les politiques de comportement et cible diffèrent fortement.

Pour atténuer ce problème de variance, une alternative plus stable peut être utilisée : l'échantillonnage d'importance pondéré. Cette méthode normalise les poids d'importance, ce qui réduit l'impact des grands ratios et conduit à un apprentissage plus stable :

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

Dans cette version, le numérateur reste la somme pondérée des retours, mais le dénominateur est désormais la somme des poids d'importance, plutôt qu'un simple comptage.

Cela rend l'estimation biaisée, mais le biais diminue à mesure que le nombre d'échantillons augmente. En pratique, l'échantillonnage d'importance pondéré est préféré en raison de sa variance nettement plus faible et de sa plus grande stabilité numérique.

Politiques

Comme dans le cas on-policy, utilisons des politiques $\varepsilon$ -gloutonnes à la fois pour la politique cible $\pi(a | s)$ et la politique de comportement $b(a | s)$ .

À première vue, il semble naturel de rendre la politique cible totalement gloutonne — après tout, notre objectif final est une politique gloutonne. En pratique, cependant, cela pose un problème majeur : si à une étape quelconque $\pi(a | s) = 0$ pour l'action effectivement choisie par la politique de comportement, le ratio d'échantillonnage d'importance $\rho$ devient nul et le reste de l'épisode est effectivement ignoré.

En utilisant un petit $\varepsilon$ (par exemple, $\varepsilon = 0.01$ ) dans la politique cible, on garantit que $\pi(a | s) > 0$ pour chaque action, donc $\rho$ ne s'annule jamais au cours de l'épisode. Une fois l'entraînement terminé, il est trivial de convertir la politique $\varepsilon$ -gloutonne apprise en une politique strictement gloutonne. Comme pour l'apprentissage on-policy, il convient d'utiliser une décroissance de $\varepsilon$ dans la politique de comportement, mais cette fois principalement pour la stabilité numérique, car $\rho$ peut toujours devenir nul au cours de l'épisode, en raison de la représentation des nombres en informatique.

Pseudocode

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 6

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu