Q-Learning : Apprentissage TD Hors Politique
L'apprentissage d'une politique optimale avec SARSA peut s'avérer difficile. À l'instar du contrôle Monte Carlo sur-politique, il nécessite généralement une décroissance progressive de ε au fil du temps, tendant finalement vers zéro afin de passer de l'exploration à l'exploitation. Ce processus est souvent lent et peut exiger un temps d'entraînement considérable. Une alternative consiste à utiliser une méthode hors-politique telle que le Q-learning.
Le Q-learning est un algorithme de contrôle TD hors-politique utilisé pour estimer la fonction de valeur d'action optimale q∗(s,a). Il met à jour ses estimations en se basant sur la meilleure action actuelle, ce qui en fait un algorithme hors-politique.
Règle de mise à jour
Contrairement au contrôle Monte Carlo hors politique, Q-learning ne nécessite pas d'échantillonnage d'importance pour corriger les différences entre les politiques de comportement et les politiques cibles. Il repose plutôt sur une règle de mise à jour directe qui ressemble fortement à SARSA, mais avec une différence clé.
La règle de mise à jour du Q-learning est :
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))La seule différence avec SARSA réside dans la valeur cible. Au lieu d'utiliser la valeur de la prochaine action réellement effectuée, comme le fait SARSA :
γQ(St+1,At+1)Q-learning utilise la valeur de la meilleure action suivante possible :
γamaxQ(St+1,a)Ce changement subtil a un impact majeur : il permet au Q-learning d'évaluer les actions en utilisant une estimation de la politique optimale, même lorsque l'agent est encore en phase d'exploration. C'est ce qui en fait une méthode hors politique — il apprend à propos de la politique gloutonne, indépendamment des actions choisies pendant l'entraînement.
Quand utiliser le Q-learning ?
Le Q-learning est préférable lorsque :
- Vous traitez des environnements déterministes, ou des environnements ;
- Vous avez besoin d'une vitesse de convergence plus rapide.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 2.7
Q-Learning : Apprentissage TD Hors Politique
Glissez pour afficher le menu
L'apprentissage d'une politique optimale avec SARSA peut s'avérer difficile. À l'instar du contrôle Monte Carlo sur-politique, il nécessite généralement une décroissance progressive de ε au fil du temps, tendant finalement vers zéro afin de passer de l'exploration à l'exploitation. Ce processus est souvent lent et peut exiger un temps d'entraînement considérable. Une alternative consiste à utiliser une méthode hors-politique telle que le Q-learning.
Le Q-learning est un algorithme de contrôle TD hors-politique utilisé pour estimer la fonction de valeur d'action optimale q∗(s,a). Il met à jour ses estimations en se basant sur la meilleure action actuelle, ce qui en fait un algorithme hors-politique.
Règle de mise à jour
Contrairement au contrôle Monte Carlo hors politique, Q-learning ne nécessite pas d'échantillonnage d'importance pour corriger les différences entre les politiques de comportement et les politiques cibles. Il repose plutôt sur une règle de mise à jour directe qui ressemble fortement à SARSA, mais avec une différence clé.
La règle de mise à jour du Q-learning est :
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))La seule différence avec SARSA réside dans la valeur cible. Au lieu d'utiliser la valeur de la prochaine action réellement effectuée, comme le fait SARSA :
γQ(St+1,At+1)Q-learning utilise la valeur de la meilleure action suivante possible :
γamaxQ(St+1,a)Ce changement subtil a un impact majeur : il permet au Q-learning d'évaluer les actions en utilisant une estimation de la politique optimale, même lorsque l'agent est encore en phase d'exploration. C'est ce qui en fait une méthode hors politique — il apprend à propos de la politique gloutonne, indépendamment des actions choisies pendant l'entraînement.
Quand utiliser le Q-learning ?
Le Q-learning est préférable lorsque :
- Vous traitez des environnements déterministes, ou des environnements ;
- Vous avez besoin d'une vitesse de convergence plus rapide.
Merci pour vos commentaires !