Épisodes et Retours
La durée d'une tâche
Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.
Un épisode est une séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.
Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.
En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit en continu avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage se poursuit, souvent sans point terminal distinct.
Retour
Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons la notion de retour.
Retour G correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un état donné, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.
Le retour est une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.
Si T est l’instant final, la formule du retour s’écrit ainsi :
Gt=Rt+1+Rt+2+Rt+3+...+RTActualisation
Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème se pose dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de s'assurer que les récompenses futures ont moins de poids, empêchant ainsi le retour de devenir infini.
Le facteur d'actualisation γ est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 conduit l'agent à accorder plus d'importance aux récompenses futures.
Le retour combiné avec un facteur d'actualisation est appelé retour actualisé.
La formule du retour actualisé est la suivante :
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Épisodes et Retours
Glissez pour afficher le menu
La durée d'une tâche
Les tâches en apprentissage par renforcement (RL) sont généralement classées comme épisodiques ou continues, selon la manière dont le processus d'apprentissage est structuré dans le temps.
Un épisode est une séquence complète d'interactions entre l'agent et l'environnement, débutant dans un état initial et progressant à travers une série de transitions jusqu'à atteindre un état terminal.
Les tâches épisodiques sont celles qui consistent en une séquence finie d'états, d'actions et de récompenses, où l'interaction de l'agent avec l'environnement est divisée en épisodes distincts.
En revanche, les tâches continues n'ont pas de fin claire à chaque cycle d'interaction. L'agent interagit en continu avec l'environnement sans réinitialisation à un état initial, et le processus d'apprentissage se poursuit, souvent sans point terminal distinct.
Retour
Vous savez déjà que l'objectif principal de l'agent est de maximiser les récompenses cumulées. Bien que la fonction de récompense fournisse des récompenses instantanées, elle ne prend pas en compte les résultats futurs, ce qui peut être problématique. Un agent entraîné uniquement à maximiser les récompenses immédiates peut négliger les bénéfices à long terme. Pour résoudre ce problème, introduisons la notion de retour.
Retour G correspond à la récompense totale accumulée qu’un agent reçoit à partir d’un état donné, en intégrant toutes les récompenses qu’il recevra à l’avenir, et pas seulement celles immédiates.
Le retour est une meilleure représentation de la qualité d’un état ou d’une action sur le long terme. L’objectif de l’apprentissage par renforcement peut ainsi être défini comme la maximisation du retour.
Si T est l’instant final, la formule du retour s’écrit ainsi :
Gt=Rt+1+Rt+2+Rt+3+...+RTActualisation
Alors que le retour simple constitue une bonne cible dans les tâches épisodiques, un problème se pose dans les tâches continues. Si le nombre de pas de temps est infini, le retour lui-même peut devenir infini. Pour gérer cela, un facteur d'actualisation est utilisé afin de s'assurer que les récompenses futures ont moins de poids, empêchant ainsi le retour de devenir infini.
Le facteur d'actualisation γ est un facteur multiplicatif utilisé pour déterminer la valeur actuelle des récompenses futures. Il varie entre 0 et 1, où une valeur proche de 0 amène l'agent à privilégier les récompenses immédiates, tandis qu'une valeur proche de 1 conduit l'agent à accorder plus d'importance aux récompenses futures.
Le retour combiné avec un facteur d'actualisation est appelé retour actualisé.
La formule du retour actualisé est la suivante :
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Même dans les tâches épisodiques, l'utilisation d'un facteur d'actualisation présente des avantages pratiques : elle incite l'agent à atteindre son objectif le plus rapidement possible, ce qui conduit à un comportement plus efficace. Pour cette raison, l'actualisation est couramment appliquée même dans des contextes clairement épisodiques.
Merci pour vos commentaires !