Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Épisodes et Retours | Théorie Fondamentale de l'AR
Introduction à l'Apprentissage par Renforcement

bookÉpisodes et Retours

La durée d'une tâche

Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.

Note
Définition

Un épisode est une séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.

Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.

En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit en continu avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage se poursuit, souvent sans point terminal distinct.

Retour

Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons la notion de retour.

Note
Définition

Retour GG correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un état donné, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.

Le retour est une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.

Si TT est l’instant final, la formule du retour s’écrit ainsi :

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Actualisation

Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème se pose dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de s'assurer que les récompenses futures ont moins de poids, empêchant ainsi le retour de devenir infini.

Note
Définition

Le facteur d'actualisation γ\gamma est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 conduit l'agent à accorder plus d'importance aux récompenses futures.

Le retour combiné avec un facteur d'actualisation est appelé retour actualisé.

La formule du retour actualisé est la suivante :

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Approfondir

Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.

question mark

Que représente le facteur d'actualisation γ\gamma ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 2.7

bookÉpisodes et Retours

Glissez pour afficher le menu

La durée d'une tâche

Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.

Note
Définition

Un épisode est une séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.

Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.

En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit en continu avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage se poursuit, souvent sans point terminal distinct.

Retour

Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons la notion de retour.

Note
Définition

Retour GG correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un état donné, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.

Le retour est une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.

Si TT est l’instant final, la formule du retour s’écrit ainsi :

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Actualisation

Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème se pose dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de s'assurer que les récompenses futures ont moins de poids, empêchant ainsi le retour de devenir infini.

Note
Définition

Le facteur d'actualisation γ\gamma est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 conduit l'agent à accorder plus d'importance aux récompenses futures.

Le retour combiné avec un facteur d'actualisation est appelé retour actualisé.

La formule du retour actualisé est la suivante :

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Approfondir

Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.

question mark

Que représente le facteur d'actualisation γ\gamma ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4
some-alt