Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Valeurs d'Action | Problème du Bandit Manchot
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Valeurs d'Action

La valeur d'action est un concept fondamental dans le problème du bandit manchot (MAB). Elle joue un rôle central dans divers algorithmes, notamment epsilon-greedy et la borne supérieure de confiance. L'objectif principal d'une valeur d'action est de fournir une estimation de la récompense attendue lorsqu'une action spécifique est choisie. Elle est similaire à une valeur état-action, mais elle est indépendante de l'état en raison de la nature sans état du problème MAB.

Définition de la valeur d'action

Formellement, la valeur d'action, notée Q(a)Q(a), représente la récompense attendue lors du choix de l'action aa :

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

où :

  • RR est la récompense reçue ;
  • AA est l'action sélectionnée.

Puisque la distribution réelle des récompenses est généralement inconnue, nous devons estimer Q(a)Q(a) à l'aide des données observées.

Estimation des valeurs d'action

Il existe plusieurs méthodes pour estimer Q(a)Q(a) à partir des récompenses observées. La méthode la plus courante est l'estimation par moyenne empirique, qui calcule la récompense moyenne obtenue en sélectionnant l'action aa jusqu'au temps tt :

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

où :

  • Qt(a)Q_t(a) est la valeur estimée de l'action aa à l'instant tt ;
  • Nt(a)N_t(a) est le nombre de fois où l'action aa a été choisie jusqu'au temps tt ;
  • RiR_i est la récompense obtenue à chaque fois que l'action aa a été sélectionnée.

À mesure que davantage d'échantillons sont collectés, cette estimation converge vers la véritable récompense attendue Q(a)Q_*(a), en supposant que la distribution des récompenses reste stationnaire.

Note
Définition

Une distribution stationnaire est une distribution qui ne change pas au fil du temps, quels que soient les actions entreprises ou les modifications de l'environnement.

Règle de mise à jour incrémentale

Bien que la formule ci-dessus puisse être utilisée pour estimer les valeurs d'action, elle nécessite de stocker toutes les récompenses précédentes et de recalculer leur somme à chaque étape temporelle. Avec les mises à jour incrémentales, cela devient inutile. La formule pour les mises à jour incrémentales peut être dérivée ainsi :

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

où, pour une action donnée :

  • QkQ_k est une estimation de la kk-ième récompense, qui peut être exprimée comme une moyenne des k1k-1 premières récompenses ;
  • RkR_k est la véritable kk-ième récompense.

Intuition

En connaissant l'estimation de la kk-ième récompense, QkQ_k, et la véritable kk-ième récompense, RkR_k, il est possible de mesurer l'erreur comme la différence entre ces valeurs. Ensuite, la prochaine estimation peut être calculée en ajustant légèrement l'estimation précédente dans la direction de la récompense réelle, afin de réduire l'erreur.

Cette intuition conduit à une autre formule, qui s'écrit ainsi :

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

α\alpha est un paramètre de taux d'apprentissage contrôlant la vitesse d'apprentissage. Comme dans la formule précédente, alpha peut être 1k\frac1k, ce qui donne une estimation par moyenne d'échantillon. Alternativement, un α\alpha constant est couramment utilisé, car il ne nécessite aucun espace supplémentaire (pour stocker le nombre de fois qu'une action a été choisie) et permet une adaptation à des environnements non stationnaires en accordant plus de poids aux observations récentes.

Initialisation optimiste

Au début d'un processus d'apprentissage, les estimations des valeurs d'action peuvent varier considérablement, ce qui peut entraîner une exploitation prématurée. Cela signifie que l'agent peut exploiter ses connaissances initiales trop tôt, en privilégiant des actions sous-optimales sur la base d'une expérience limitée. Pour atténuer ce problème et encourager une exploration initiale, une technique simple et efficace est l'initialisation optimiste.

Avec l'initialisation optimiste, les valeurs d'action sont initialisées à des valeurs relativement élevées (par exemple, Q0(a)=1Q_0(a) = 1 au lieu de 0). Cette approche donne l'impression que toutes les actions sont prometteuses au départ. En conséquence, l'agent est incité à explorer chaque action plusieurs fois avant de se fixer sur le meilleur choix. Cette technique est particulièrement efficace lorsqu'elle est utilisée en combinaison avec une taille de pas constante.

Note
Note

Le taux d'action optimale dans ce graphique et les suivants fait référence à la proportion d'environnements où l'action optimale a été choisie à un instant donné.

Par exemple, s'il y a 10 environnements de test et que l'action optimale a été sélectionnée dans 6 d'entre eux à l'instant 200, le taux d'action optimale pour cet instant serait de 0,6. Cette métrique est utile pour évaluer la performance car elle est corrélée à la maximisation de la récompense, sans dépendre des valeurs exactes des récompenses.

question mark

À quoi sert l'estimation par moyenne d'échantillon dans l'estimation de la valeur d'action ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Valeurs d'Action

La valeur d'action est un concept fondamental dans le problème du bandit manchot (MAB). Elle joue un rôle central dans divers algorithmes, notamment epsilon-greedy et la borne supérieure de confiance. L'objectif principal d'une valeur d'action est de fournir une estimation de la récompense attendue lorsqu'une action spécifique est choisie. Elle est similaire à une valeur état-action, mais elle est indépendante de l'état en raison de la nature sans état du problème MAB.

Définition de la valeur d'action

Formellement, la valeur d'action, notée Q(a)Q(a), représente la récompense attendue lors du choix de l'action aa :

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

où :

  • RR est la récompense reçue ;
  • AA est l'action sélectionnée.

Puisque la distribution réelle des récompenses est généralement inconnue, nous devons estimer Q(a)Q(a) à l'aide des données observées.

Estimation des valeurs d'action

Il existe plusieurs méthodes pour estimer Q(a)Q(a) à partir des récompenses observées. La méthode la plus courante est l'estimation par moyenne empirique, qui calcule la récompense moyenne obtenue en sélectionnant l'action aa jusqu'au temps tt :

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

où :

  • Qt(a)Q_t(a) est la valeur estimée de l'action aa à l'instant tt ;
  • Nt(a)N_t(a) est le nombre de fois où l'action aa a été choisie jusqu'au temps tt ;
  • RiR_i est la récompense obtenue à chaque fois que l'action aa a été sélectionnée.

À mesure que davantage d'échantillons sont collectés, cette estimation converge vers la véritable récompense attendue Q(a)Q_*(a), en supposant que la distribution des récompenses reste stationnaire.

Note
Définition

Une distribution stationnaire est une distribution qui ne change pas au fil du temps, quels que soient les actions entreprises ou les modifications de l'environnement.

Règle de mise à jour incrémentale

Bien que la formule ci-dessus puisse être utilisée pour estimer les valeurs d'action, elle nécessite de stocker toutes les récompenses précédentes et de recalculer leur somme à chaque étape temporelle. Avec les mises à jour incrémentales, cela devient inutile. La formule pour les mises à jour incrémentales peut être dérivée ainsi :

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

où, pour une action donnée :

  • QkQ_k est une estimation de la kk-ième récompense, qui peut être exprimée comme une moyenne des k1k-1 premières récompenses ;
  • RkR_k est la véritable kk-ième récompense.

Intuition

En connaissant l'estimation de la kk-ième récompense, QkQ_k, et la véritable kk-ième récompense, RkR_k, il est possible de mesurer l'erreur comme la différence entre ces valeurs. Ensuite, la prochaine estimation peut être calculée en ajustant légèrement l'estimation précédente dans la direction de la récompense réelle, afin de réduire l'erreur.

Cette intuition conduit à une autre formule, qui s'écrit ainsi :

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

α\alpha est un paramètre de taux d'apprentissage contrôlant la vitesse d'apprentissage. Comme dans la formule précédente, alpha peut être 1k\frac1k, ce qui donne une estimation par moyenne d'échantillon. Alternativement, un α\alpha constant est couramment utilisé, car il ne nécessite aucun espace supplémentaire (pour stocker le nombre de fois qu'une action a été choisie) et permet une adaptation à des environnements non stationnaires en accordant plus de poids aux observations récentes.

Initialisation optimiste

Au début d'un processus d'apprentissage, les estimations des valeurs d'action peuvent varier considérablement, ce qui peut entraîner une exploitation prématurée. Cela signifie que l'agent peut exploiter ses connaissances initiales trop tôt, en privilégiant des actions sous-optimales sur la base d'une expérience limitée. Pour atténuer ce problème et encourager une exploration initiale, une technique simple et efficace est l'initialisation optimiste.

Avec l'initialisation optimiste, les valeurs d'action sont initialisées à des valeurs relativement élevées (par exemple, Q0(a)=1Q_0(a) = 1 au lieu de 0). Cette approche donne l'impression que toutes les actions sont prometteuses au départ. En conséquence, l'agent est incité à explorer chaque action plusieurs fois avant de se fixer sur le meilleur choix. Cette technique est particulièrement efficace lorsqu'elle est utilisée en combinaison avec une taille de pas constante.

Note
Note

Le taux d'action optimale dans ce graphique et les suivants fait référence à la proportion d'environnements où l'action optimale a été choisie à un instant donné.

Par exemple, s'il y a 10 environnements de test et que l'action optimale a été sélectionnée dans 6 d'entre eux à l'instant 200, le taux d'action optimale pour cet instant serait de 0,6. Cette métrique est utile pour évaluer la performance car elle est corrélée à la maximisation de la récompense, sans dépendre des valeurs exactes des récompenses.

question mark

À quoi sert l'estimation par moyenne d'échantillon dans l'estimation de la valeur d'action ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2
some-alt