Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Approches d'Exploration | Méthodes de Monte Carlo
Introduction à l'Apprentissage par Renforcement

bookApproches d'Exploration

L’hypothèse des exploring starts est utile pour garantir que tous les états (paires état-action) soient visités au fil du temps. Cependant, dans la plupart des tâches réelles, elle présente un inconvénient majeur : elle nécessite un modèle permettant d’initialiser l’agent dans des états arbitraires.

Dans de rares cas — lorsque l’environnement commence naturellement les épisodes à partir d’états aléatoires couvrant l’ensemble de l’espace d’états — les exploring starts peuvent être appliqués sans difficulté. Mais le plus souvent, les tâches disposent d’un ensemble fixe ou limité d’états de départ, rendant une telle randomisation impossible sans un modèle partiel. Ce modèle doit au moins être capable de simuler une étape de l’environnement à partir de n’importe quel état. Bien que cela soit moins exigeant que de nécessiter un modèle complet, cela reste souvent peu pratique.

Approches alternatives d’exploration

Si commencer à partir d’un état aléatoire (paire état-action) n’est pas possible, l’alternative consiste à garantir que chaque action ait une probabilité non nulle d’être sélectionnée dans chaque état. Cela assure qu’avec le temps, l’agent explorera toutes les parties accessibles de l’espace d’états. Si un état peut être atteint par une séquence valide d’actions, il le sera éventuellement ; et s’il ne peut pas être atteint du tout selon la dynamique de l’environnement, il devient alors sans importance pour le processus d’apprentissage.

Cette idée conduit à l’utilisation de politiques stochastiques, où l’agent ne choisit pas toujours l’action la mieux connue, mais sélectionne les actions avec un certain degré d’aléa. Une stratégie courante pour cela est la politique ε\varepsilon-greedy bien connue, qui choisit l’action gloutonne la plupart du temps, mais avec une probabilité ε\varepsilon, sélectionne une action aléatoire à la place. Cela garantit une exploration continue tout en privilégiant les actions à forte valeur.

À ce stade, il est également utile de distinguer deux grandes classes de méthodes :

  • Les méthodes on-policy évaluent et améliorent la même politique que celle utilisée pour générer les données ;
  • Les méthodes off-policy évaluent et améliorent une politique, et génèrent les données avec une autre politique.

1. Quel est le principal problème de l'hypothèse des départs exploratoires ?

2. Quelle est la différence entre les méthodes on-policy et off-policy en apprentissage par renforcement ?

question mark

Quel est le principal problème de l'hypothèse des départs exploratoires ?

Select the correct answer

question mark

Quelle est la différence entre les méthodes on-policy et off-policy en apprentissage par renforcement ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods in more detail?

How does the ε-greedy policy work in practice?

What are some other exploration strategies besides ε-greedy?

Awesome!

Completion rate improved to 2.7

bookApproches d'Exploration

Glissez pour afficher le menu

L’hypothèse des exploring starts est utile pour garantir que tous les états (paires état-action) soient visités au fil du temps. Cependant, dans la plupart des tâches réelles, elle présente un inconvénient majeur : elle nécessite un modèle permettant d’initialiser l’agent dans des états arbitraires.

Dans de rares cas — lorsque l’environnement commence naturellement les épisodes à partir d’états aléatoires couvrant l’ensemble de l’espace d’états — les exploring starts peuvent être appliqués sans difficulté. Mais le plus souvent, les tâches disposent d’un ensemble fixe ou limité d’états de départ, rendant une telle randomisation impossible sans un modèle partiel. Ce modèle doit au moins être capable de simuler une étape de l’environnement à partir de n’importe quel état. Bien que cela soit moins exigeant que de nécessiter un modèle complet, cela reste souvent peu pratique.

Approches alternatives d’exploration

Si commencer à partir d’un état aléatoire (paire état-action) n’est pas possible, l’alternative consiste à garantir que chaque action ait une probabilité non nulle d’être sélectionnée dans chaque état. Cela assure qu’avec le temps, l’agent explorera toutes les parties accessibles de l’espace d’états. Si un état peut être atteint par une séquence valide d’actions, il le sera éventuellement ; et s’il ne peut pas être atteint du tout selon la dynamique de l’environnement, il devient alors sans importance pour le processus d’apprentissage.

Cette idée conduit à l’utilisation de politiques stochastiques, où l’agent ne choisit pas toujours l’action la mieux connue, mais sélectionne les actions avec un certain degré d’aléa. Une stratégie courante pour cela est la politique ε\varepsilon-greedy bien connue, qui choisit l’action gloutonne la plupart du temps, mais avec une probabilité ε\varepsilon, sélectionne une action aléatoire à la place. Cela garantit une exploration continue tout en privilégiant les actions à forte valeur.

À ce stade, il est également utile de distinguer deux grandes classes de méthodes :

  • Les méthodes on-policy évaluent et améliorent la même politique que celle utilisée pour générer les données ;
  • Les méthodes off-policy évaluent et améliorent une politique, et génèrent les données avec une autre politique.

1. Quel est le principal problème de l'hypothèse des départs exploratoires ?

2. Quelle est la différence entre les méthodes on-policy et off-policy en apprentissage par renforcement ?

question mark

Quel est le principal problème de l'hypothèse des départs exploratoires ?

Select the correct answer

question mark

Quelle est la différence entre les méthodes on-policy et off-policy en apprentissage par renforcement ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4
some-alt