Apprendre Q-Learning : Apprentissage TD Hors Politique | Apprentissage par Différence Temporelle

L'apprentissage d'une politique optimale avec SARSA peut s'avérer difficile. À l'instar du contrôle Monte Carlo sur politique, il nécessite généralement une décroissance progressive de $\varepsilon$ au fil du temps, tendant finalement vers zéro afin de passer de l'exploration à l'exploitation. Ce processus est souvent lent et peut exiger un temps d'entraînement considérable. Une alternative consiste à utiliser une méthode hors politique telle que le Q-learning.

Définition

Le Q-learning est un algorithme de contrôle TD hors politique utilisé pour estimer la fonction de valeur d'action optimale $q_*(s, a)$ . Il met à jour ses estimations en se basant sur la meilleure action actuelle, ce qui en fait un algorithme hors politique.

Règle de mise à jour

Contrairement au contrôle Monte Carlo hors politique, Q-learning ne nécessite pas d'échantillonnage d'importance pour corriger les différences entre les politiques de comportement et les politiques cibles. Il repose plutôt sur une règle de mise à jour directe qui ressemble fortement à SARSA, mais avec une différence clé.

La règle de mise à jour du Q-learning est :

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

La seule différence avec SARSA réside dans la valeur cible. Au lieu d'utiliser la valeur de la prochaine action réellement effectuée, comme le fait SARSA :

\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilise la valeur de la meilleure action possible suivante :

\gamma \max_a Q(S_{t+1}, a)

Ce changement subtil a un impact majeur : il permet au Q-learning d'évaluer les actions en utilisant une estimation de la politique optimale, même lorsque l'agent explore encore. C'est ce qui en fait une méthode hors politique — il apprend sur la politique gloutonne, indépendamment des actions choisies pendant l'entraînement.

Quand utiliser le Q-learning ?

Le Q-learning est préférable lorsque :

Environnements déterministes, ou environnements ;
Besoin d'une vitesse de convergence plus rapide.

Tout était clair ?

Merci pour vos commentaires !

Section 5. Chapitre 4

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu