Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Contrôle Monte Carlo Sur Politique | Méthodes de Monte Carlo
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Contrôle Monte Carlo Sur Politique

L'idée derrière les méthodes on-policy est intuitive : un agent apprend en suivant sa politique actuelle et améliore cette politique en fonction des résultats qu'il expérimente. Pour découvrir de meilleures actions et éviter de rester bloqué dans un comportement sous-optimal, l'agent intègre un certain degré d'aléa — essayant occasionnellement des actions alternatives pour favoriser l'exploration.

Analogie

Imaginez que vous êtes dans une boutique de glaces et qu'il y a trois parfums disponibles : chocolat, vanille et fraise. Vous adorez le chocolat, donc c'est généralement celui que vous choisissez. Mais un jour, par curiosité, vous décidez d'essayer la fraise à la place. Il s'avère que la glace à la fraise de cette boutique est incroyablement savoureuse, et vous décidez de la choisir à chaque fois que vous venez ici.

Essayer une nouvelle saveur n'était pas nécessairement le choix le plus logique selon l'expérience passée, mais cela vous a permis de découvrir quelque chose de nouveau. Ce type d'exploration est au cœur des méthodes on-policy.

Politiques stochastiques

Formellement, adopter cette idée signifie remplacer les politiques déterministes (dures) utilisées en programmation dynamique par des politiques stochastiques (souples), notées π(as)\pi(a | s), où :

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En d'autres termes, chaque action dans chaque état a une probabilité non nulle d'être sélectionnée. Cela garantit que toutes les parties de l'environnement peuvent éventuellement être explorées, ce qui est essentiel lors de l'apprentissage par l'expérience.

Politiques ε\Large\varepsilon-gloutonnes

Pour intégrer l'exploration dans la politique, utilisons le concept d'exploration ε\varepsilon-gloutonne issu du problème du bandit manchot. Cela permet de définir une politique stochastique qui équilibre l'exploitation de la meilleure action connue et l'exploration d'alternatives :

π(as){1ε+εA(s)si a=arg maxaqπ(s,a)εA(s)sinon\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{sinon} \end{dcases}

Cette politique agit de manière gloutonne la plupart du temps — choisissant l'action avec la valeur estimée la plus élevée — mais avec une probabilité ε\varepsilon, elle sélectionne une action aléatoire, garantissant que toutes les actions ont une chance non nulle d'être choisies (y compris la gloutonne, via un échantillonnage uniforme).

À première vue, cette approche semble problématique : puisque la politique ne devient jamais purement gloutonne, elle ne convergera jamais vers la politique optimale exacte. Ainsi, elle ne satisfait pas strictement les conditions du GPI si l'on attend l'optimalité exacte à la limite.

Cependant, le GPI n'exige pas que la politique devienne optimale immédiatement — il requiert seulement que chaque politique s'améliore (ou reste identique) par rapport à la précédente, progressant ainsi vers l'optimalité. La politique ε\varepsilon-gloutonne satisfait cette condition : elle améliore la politique en moyenne et assure une exploration continue pour de meilleures estimations.

Pour résoudre le problème de convergence vers la politique réellement optimale, on peut réduire progressivement ε\varepsilon au fil du temps. Cette stratégie permet à la politique de devenir de plus en plus gloutonne à mesure que l'apprentissage progresse. Aux premiers stades, l'exploration permet de recueillir des expériences variées, tandis qu'aux stades ultérieurs, l'agent exploite ses connaissances améliorées. Avec une décroissance appropriée de ε\varepsilon, la méthode converge vers une politique optimale à la limite.

Pseudocode

question mark

Comment les politiques stochastiques peuvent-elles aider à l'exploration ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 5

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Contrôle Monte Carlo Sur Politique

L'idée derrière les méthodes on-policy est intuitive : un agent apprend en suivant sa politique actuelle et améliore cette politique en fonction des résultats qu'il expérimente. Pour découvrir de meilleures actions et éviter de rester bloqué dans un comportement sous-optimal, l'agent intègre un certain degré d'aléa — essayant occasionnellement des actions alternatives pour favoriser l'exploration.

Analogie

Imaginez que vous êtes dans une boutique de glaces et qu'il y a trois parfums disponibles : chocolat, vanille et fraise. Vous adorez le chocolat, donc c'est généralement celui que vous choisissez. Mais un jour, par curiosité, vous décidez d'essayer la fraise à la place. Il s'avère que la glace à la fraise de cette boutique est incroyablement savoureuse, et vous décidez de la choisir à chaque fois que vous venez ici.

Essayer une nouvelle saveur n'était pas nécessairement le choix le plus logique selon l'expérience passée, mais cela vous a permis de découvrir quelque chose de nouveau. Ce type d'exploration est au cœur des méthodes on-policy.

Politiques stochastiques

Formellement, adopter cette idée signifie remplacer les politiques déterministes (dures) utilisées en programmation dynamique par des politiques stochastiques (souples), notées π(as)\pi(a | s), où :

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

En d'autres termes, chaque action dans chaque état a une probabilité non nulle d'être sélectionnée. Cela garantit que toutes les parties de l'environnement peuvent éventuellement être explorées, ce qui est essentiel lors de l'apprentissage par l'expérience.

Politiques ε\Large\varepsilon-gloutonnes

Pour intégrer l'exploration dans la politique, utilisons le concept d'exploration ε\varepsilon-gloutonne issu du problème du bandit manchot. Cela permet de définir une politique stochastique qui équilibre l'exploitation de la meilleure action connue et l'exploration d'alternatives :

π(as){1ε+εA(s)si a=arg maxaqπ(s,a)εA(s)sinon\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{si } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{sinon} \end{dcases}

Cette politique agit de manière gloutonne la plupart du temps — choisissant l'action avec la valeur estimée la plus élevée — mais avec une probabilité ε\varepsilon, elle sélectionne une action aléatoire, garantissant que toutes les actions ont une chance non nulle d'être choisies (y compris la gloutonne, via un échantillonnage uniforme).

À première vue, cette approche semble problématique : puisque la politique ne devient jamais purement gloutonne, elle ne convergera jamais vers la politique optimale exacte. Ainsi, elle ne satisfait pas strictement les conditions du GPI si l'on attend l'optimalité exacte à la limite.

Cependant, le GPI n'exige pas que la politique devienne optimale immédiatement — il requiert seulement que chaque politique s'améliore (ou reste identique) par rapport à la précédente, progressant ainsi vers l'optimalité. La politique ε\varepsilon-gloutonne satisfait cette condition : elle améliore la politique en moyenne et assure une exploration continue pour de meilleures estimations.

Pour résoudre le problème de convergence vers la politique réellement optimale, on peut réduire progressivement ε\varepsilon au fil du temps. Cette stratégie permet à la politique de devenir de plus en plus gloutonne à mesure que l'apprentissage progresse. Aux premiers stades, l'exploration permet de recueillir des expériences variées, tandis qu'aux stades ultérieurs, l'agent exploite ses connaissances améliorées. Avec une décroissance appropriée de ε\varepsilon, la méthode converge vers une politique optimale à la limite.

Pseudocode

question mark

Comment les politiques stochastiques peuvent-elles aider à l'exploration ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 5
some-alt