Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Implémentations Incrémentales
Stocker chaque retour pour chaque paire état-action peut rapidement épuiser la mémoire et augmenter considérablement le temps de calcul — en particulier dans des environnements de grande taille. Cette limitation affecte aussi bien les algorithmes de contrôle Monte Carlo on-policy qu'off-policy. Pour y remédier, nous adoptons des stratégies de calcul incrémentiel, similaires à celles utilisées dans les algorithmes multi-armed bandit. Ces méthodes permettent de mettre à jour les estimations de valeur à la volée, sans conserver l'historique complet des retours.
Contrôle Monte Carlo On-Policy
Pour la méthode on-policy, la stratégie de mise à jour ressemble à celle utilisée dans les algorithmes MAB :
où pour l'estimation de la moyenne. Les seules valeurs à stocker sont les estimations actuelles des valeurs d'action et le nombre de fois que la paire état-action a été visitée .
Pseudocode
Contrôle Monte Carlo Hors-Politique
Pour la méthode hors-politique avec l'échantillonnage d'importance ordinaire, tout est identique à la méthode sur-politique.
Une situation plus intéressante se présente avec l'échantillonnage d'importance pondéré. L'équation reste la même :
mais ne peut pas être utilisé car :
- Chaque retour est pondéré par ;
- La somme finale est divisée non pas par , mais par .
La valeur de qui peut réellement être utilisée dans ce cas est égale à où :
- est le pour la trajectoire courante ;
- est égal à .
Et chaque fois que la paire état-action apparaît, le de la trajectoire courante est ajouté à :
Pseudocode
Merci pour vos commentaires !