Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Épisodes et Retours
La durée d'une tâche
Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.
Épisode : séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.
Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.
En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit continuellement avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage est permanent, souvent sans point terminal distinct.
Retour
Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons le concept de retour.
Retour correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un certain état, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.
Le retour constitue une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.
Si est l’instant final, la formule du retour s’écrit ainsi :
Actualisation
Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème survient dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de donner moins de poids aux récompenses futures, empêchant ainsi le retour de devenir infini.
Le facteur d'actualisation est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 amène l'agent à considérer plus significativement les récompenses futures.
La valeur de retour combinée avec un facteur d'actualisation est appelée retour actualisé.
La formule du retour actualisé s'écrit ainsi :
Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.
Merci pour vos commentaires !