Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Q-Learning : Apprentissage TD Hors Politique | Apprentissage par Différence Temporelle
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Q-Learning : Apprentissage TD Hors Politique

L'apprentissage d'une politique optimale avec SARSA peut s'avérer difficile. À l'instar du contrôle Monte Carlo sur-politique, il nécessite généralement une décroissance progressive de ε\varepsilon au fil du temps, tendant finalement vers zéro afin de passer de l'exploration à l'exploitation. Ce processus est souvent lent et peut exiger un temps d'entraînement considérable. Une alternative consiste à utiliser une méthode hors-politique telle que le Q-learning.

Note
Définition

Le Q-learning est un algorithme de contrôle TD hors-politique utilisé pour estimer la fonction de valeur d'action optimale q(s,a)q_*(s, a). Il met à jour ses estimations en se basant sur la meilleure action actuelle, ce qui en fait un algorithme hors-politique.

Règle de mise à jour

Contrairement au contrôle Monte Carlo hors politique, Q-learning ne nécessite pas d'échantillonnage d'importance pour corriger les différences entre les politiques de comportement et les politiques cibles. Il repose plutôt sur une règle de mise à jour directe qui ressemble fortement à SARSA, mais avec une différence clé.

La règle de mise à jour du Q-learning est :

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

La seule différence avec SARSA réside dans la valeur cible. Au lieu d'utiliser la valeur de la prochaine action réellement effectuée, comme le fait SARSA :

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilise la valeur de la meilleure action suivante possible :

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Ce changement subtil a un impact majeur : il permet au Q-learning d'évaluer les actions en utilisant une estimation de la politique optimale, même lorsque l'agent est encore en phase d'exploration. C'est ce qui en fait une méthode hors politique — il apprend à propos de la politique gloutonne, indépendamment des actions choisies pendant l'entraînement.

Quand utiliser le Q-learning ?

Le Q-learning est préférable lorsque :

  • Vous traitez des environnements déterministes, ou des environnements ;
  • Vous avez besoin d'une vitesse de convergence plus rapide.
question mark

Qu'est-ce qui distingue Q-learning en tant qu'algorithme hors politique (off-policy) ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Q-Learning : Apprentissage TD Hors Politique

L'apprentissage d'une politique optimale avec SARSA peut s'avérer difficile. À l'instar du contrôle Monte Carlo sur-politique, il nécessite généralement une décroissance progressive de ε\varepsilon au fil du temps, tendant finalement vers zéro afin de passer de l'exploration à l'exploitation. Ce processus est souvent lent et peut exiger un temps d'entraînement considérable. Une alternative consiste à utiliser une méthode hors-politique telle que le Q-learning.

Note
Définition

Le Q-learning est un algorithme de contrôle TD hors-politique utilisé pour estimer la fonction de valeur d'action optimale q(s,a)q_*(s, a). Il met à jour ses estimations en se basant sur la meilleure action actuelle, ce qui en fait un algorithme hors-politique.

Règle de mise à jour

Contrairement au contrôle Monte Carlo hors politique, Q-learning ne nécessite pas d'échantillonnage d'importance pour corriger les différences entre les politiques de comportement et les politiques cibles. Il repose plutôt sur une règle de mise à jour directe qui ressemble fortement à SARSA, mais avec une différence clé.

La règle de mise à jour du Q-learning est :

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

La seule différence avec SARSA réside dans la valeur cible. Au lieu d'utiliser la valeur de la prochaine action réellement effectuée, comme le fait SARSA :

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-learning utilise la valeur de la meilleure action suivante possible :

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Ce changement subtil a un impact majeur : il permet au Q-learning d'évaluer les actions en utilisant une estimation de la politique optimale, même lorsque l'agent est encore en phase d'exploration. C'est ce qui en fait une méthode hors politique — il apprend à propos de la politique gloutonne, indépendamment des actions choisies pendant l'entraînement.

Quand utiliser le Q-learning ?

Le Q-learning est préférable lorsque :

  • Vous traitez des environnements déterministes, ou des environnements ;
  • Vous avez besoin d'une vitesse de convergence plus rapide.
question mark

Qu'est-ce qui distingue Q-learning en tant qu'algorithme hors politique (off-policy) ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 4
some-alt