Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Itération de Politique | Programmation Dynamique
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Itération de Politique

L'idée derrière l'itération de politique est simple :

  1. Prendre une politique initiale π\pi et une fonction de valeur vv ;
  2. Utiliser l'évaluation de politique pour mettre à jour vv jusqu'à ce qu'elle soit cohérente avec π\pi ;
  3. Utiliser l'amélioration de politique pour mettre à jour π\pi jusqu'à ce qu'elle soit gloutonne par rapport à vv ;
  4. Répéter les étapes 2-3 jusqu'à convergence.

Dans cette méthode, il n'y a aucune mise à jour partielle :

  • Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
  • Lors de l'amélioration de politique, la politique devient gloutonne par rapport à la fonction de valeur.

Pseudocode

question mark

D'après le pseudocode, quelle condition provoque l'arrêt de la boucle externe de l'itération de politique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 7

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Itération de Politique

L'idée derrière l'itération de politique est simple :

  1. Prendre une politique initiale π\pi et une fonction de valeur vv ;
  2. Utiliser l'évaluation de politique pour mettre à jour vv jusqu'à ce qu'elle soit cohérente avec π\pi ;
  3. Utiliser l'amélioration de politique pour mettre à jour π\pi jusqu'à ce qu'elle soit gloutonne par rapport à vv ;
  4. Répéter les étapes 2-3 jusqu'à convergence.

Dans cette méthode, il n'y a aucune mise à jour partielle :

  • Lors de l'évaluation de politique, les valeurs sont mises à jour pour chaque état, jusqu'à ce qu'elles soient cohérentes avec la politique actuelle ;
  • Lors de l'amélioration de politique, la politique devient gloutonne par rapport à la fonction de valeur.

Pseudocode

question mark

D'après le pseudocode, quelle condition provoque l'arrêt de la boucle externe de l'itération de politique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 7
some-alt