Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Itération de la Valeur | Programmation Dynamique
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Itération de la Valeur

Bien que l'itération de politique soit une approche efficace pour résoudre les MDP, elle présente un inconvénient majeur : chaque itération implique une étape distincte d'évaluation de politique. Lorsque l'évaluation de politique est effectuée de manière itérative, elle nécessite plusieurs passages sur l'ensemble de l'espace d'états, ce qui entraîne une surcharge computationnelle considérable et des temps de calcul plus longs.

Une bonne alternative est l'itération de valeur, une méthode qui fusionne l'évaluation de politique et l'amélioration de politique en une seule étape. Cette méthode met à jour directement la fonction de valeur jusqu'à ce qu'elle converge vers la fonction de valeur optimale. Une fois la convergence atteinte, la politique optimale peut être dérivée directement de cette fonction de valeur optimale.

Fonctionnement

L'itération de valeur fonctionne en effectuant un seul backup lors de l'évaluation de politique, avant de procéder à l'amélioration de politique. Cela conduit à la formule de mise à jour suivante :

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

En transformant l'équation d'optimalité de Bellman en règle de mise à jour, l'évaluation de politique et l'amélioration de politique sont fusionnées en une seule étape.

Pseudocode

question mark

D'après le pseudocode, quand l'itération de la valeur s'arrête-t-elle ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 8

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Itération de la Valeur

Bien que l'itération de politique soit une approche efficace pour résoudre les MDP, elle présente un inconvénient majeur : chaque itération implique une étape distincte d'évaluation de politique. Lorsque l'évaluation de politique est effectuée de manière itérative, elle nécessite plusieurs passages sur l'ensemble de l'espace d'états, ce qui entraîne une surcharge computationnelle considérable et des temps de calcul plus longs.

Une bonne alternative est l'itération de valeur, une méthode qui fusionne l'évaluation de politique et l'amélioration de politique en une seule étape. Cette méthode met à jour directement la fonction de valeur jusqu'à ce qu'elle converge vers la fonction de valeur optimale. Une fois la convergence atteinte, la politique optimale peut être dérivée directement de cette fonction de valeur optimale.

Fonctionnement

L'itération de valeur fonctionne en effectuant un seul backup lors de l'évaluation de politique, avant de procéder à l'amélioration de politique. Cela conduit à la formule de mise à jour suivante :

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

En transformant l'équation d'optimalité de Bellman en règle de mise à jour, l'évaluation de politique et l'amélioration de politique sont fusionnées en une seule étape.

Pseudocode

question mark

D'après le pseudocode, quand l'itération de la valeur s'arrête-t-elle ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 8
some-alt