Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Épisodes et Retours | Théorie Fondamentale de l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Épisodes et Retours

La durée d'une tâche

Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.

Note
Définition

Épisode : séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.

Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.

En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit continuellement avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage est permanent, souvent sans point terminal distinct.

Retour

Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons le concept de retour.

Note
Définition

Retour GG correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un certain état, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.

Le retour constitue une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.

Si TT est l’instant final, la formule du retour s’écrit ainsi :

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Actualisation

Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème survient dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de donner moins de poids aux récompenses futures, empêchant ainsi le retour de devenir infini.

Note
Définition

Le facteur d'actualisation γ\gamma est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 amène l'agent à considérer plus significativement les récompenses futures.

La valeur de retour combinée avec un facteur d'actualisation est appelée retour actualisé.

La formule du retour actualisé s'écrit ainsi :

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Approfondir

Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.

question mark

Que représente le facteur d'actualisation γ\gamma ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Épisodes et Retours

La durée d'une tâche

Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.

Note
Définition

Épisode : séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.

Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.

En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit continuellement avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage est permanent, souvent sans point terminal distinct.

Retour

Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons le concept de retour.

Note
Définition

Retour GG correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un certain état, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.

Le retour constitue une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.

Si TT est l’instant final, la formule du retour s’écrit ainsi :

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Actualisation

Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème survient dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de donner moins de poids aux récompenses futures, empêchant ainsi le retour de devenir infini.

Note
Définition

Le facteur d'actualisation γ\gamma est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 amène l'agent à considérer plus significativement les récompenses futures.

La valeur de retour combinée avec un facteur d'actualisation est appelée retour actualisé.

La formule du retour actualisé s'écrit ainsi :

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Approfondir

Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.

question mark

Que représente le facteur d'actualisation γ\gamma ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4
some-alt