Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Q-Learning : Apprentissage TD Hors Politique
L'apprentissage d'une politique optimale avec SARSA peut s'avérer difficile. À l'instar du contrôle Monte Carlo sur-politique, il nécessite généralement une décroissance progressive de au fil du temps, tendant finalement vers zéro afin de passer de l'exploration à l'exploitation. Ce processus est souvent lent et peut exiger un temps d'entraînement considérable. Une alternative consiste à utiliser une méthode hors-politique telle que le Q-learning.
Le Q-learning est un algorithme de contrôle TD hors-politique utilisé pour estimer la fonction de valeur d'action optimale . Il met à jour ses estimations en se basant sur la meilleure action actuelle, ce qui en fait un algorithme hors-politique.
Règle de mise à jour
Contrairement au contrôle Monte Carlo hors politique, Q-learning ne nécessite pas d'échantillonnage d'importance pour corriger les différences entre les politiques de comportement et les politiques cibles. Il repose plutôt sur une règle de mise à jour directe qui ressemble fortement à SARSA, mais avec une différence clé.
La règle de mise à jour du Q-learning est :
La seule différence avec SARSA réside dans la valeur cible. Au lieu d'utiliser la valeur de la prochaine action réellement effectuée, comme le fait SARSA :
Q-learning utilise la valeur de la meilleure action suivante possible :
Ce changement subtil a un impact majeur : il permet au Q-learning d'évaluer les actions en utilisant une estimation de la politique optimale, même lorsque l'agent est encore en phase d'exploration. C'est ce qui en fait une méthode hors politique — il apprend à propos de la politique gloutonne, indépendamment des actions choisies pendant l'entraînement.
Quand utiliser le Q-learning ?
Le Q-learning est préférable lorsque :
- Vous traitez des environnements déterministes, ou des environnements ;
- Vous avez besoin d'une vitesse de convergence plus rapide.
Merci pour vos commentaires !