Apprendre Épisodes et Retours | Théorie Fondamentale de l'Apprentissage par Renforcement

La durée d'une tâche

Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.

Définition

Épisode : séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.

Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.

En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit continuellement avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage est permanent, souvent sans point terminal distinct.

Retour

Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons le concept de retour.

Définition

Retour $G$ correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un état donné, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.

Le retour constitue une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.

Si $T$ est l’instant final, la formule du retour s’écrit :

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Actualisation

Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème survient dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de donner moins de poids aux récompenses futures, empêchant ainsi le retour de devenir infini.

Définition

Le facteur d'actualisation $\gamma$ est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 incite l'agent à prendre davantage en compte les récompenses futures.

Le retour combiné avec un facteur d'actualisation est appelé retour actualisé.

La formule du retour actualisé est la suivante :

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Approfondir

Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 4

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain what the discount factor γ represents?

What are some examples of episodic and continuous tasks in real life?

Why is it important to use discounted return in reinforcement learning?

Glissez pour afficher le menu

La durée d'une tâche

Définition

Retour

Définition

Si $T$ est l’instant final, la formule du retour s’écrit :

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Actualisation

Définition

Le retour combiné avec un facteur d'actualisation est appelé retour actualisé.

La formule du retour actualisé est la suivante :

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Approfondir

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 4