Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce que l'apprentissage par différence temporelle ? | Apprentissage par Différence Temporelle
Introduction à l'Apprentissage par Renforcement
course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Qu'est-ce que l'apprentissage par différence temporelle ?

La programmation dynamique et les méthodes de Monte Carlo présentent toutes deux des avantages notables ainsi que des inconvénients majeurs.

Programmation dynamique

La programmation dynamique permet de calculer efficacement la fonction de valeur d'état et d'en déduire une politique optimale. Elle utilise le bootstrapping — calcul de la valeur de l'état actuel à partir des valeurs des états futurs — pour atteindre cet objectif.

Bien que le concept de bootstrapping soit puissant, la programmation dynamique présente deux inconvénients majeurs :

  • Elle nécessite un modèle complet et explicite de l'environnement ;
  • Les valeurs d'état sont calculées pour chaque état, même si l'état est très éloigné du chemin optimal.

Méthodes de Monte Carlo

Les méthodes de Monte Carlo corrigent les deux inconvénients de la programmation dynamique :

  • Absence de nécessité d’un modèle, car l’apprentissage se fait à partir de l’expérience ;
  • L’apprentissage basé sur l’expérience limite l’exploration, ce qui fait que les états non importants sont rarement visités.

Cependant, elles introduisent un nouvel inconvénient : le processus d’apprentissage n’a lieu qu’après la conclusion de l’épisode. Cela limite l’applicabilité des méthodes de Monte Carlo aux tâches épisodiques de petite taille, car les tâches plus grandes nécessiteraient un nombre d’actions extrêmement élevé avant la fin de l’épisode.

Apprentissage par différence temporelle

Note
Définition

L'apprentissage par différence temporelle (TD) résulte de la combinaison des idées issues à la fois de la programmation dynamique et des méthodes de Monte Carlo. Il adopte l'apprentissage par l'expérience des méthodes de Monte Carlo et le combine avec le bootstrap de la programmation dynamique.

En conséquence, l'apprentissage TD corrige les principaux problèmes rencontrés par les deux méthodes :

  • L'apprentissage par l'expérience résout le problème de la nécessité d'un modèle et celui des espaces d'états volumineux ;
  • Le bootstrap résout le problème de l'apprentissage épisodique.

Fonctionnement

L'apprentissage par différence temporelle (TD) fonctionne selon une boucle simple :

  1. Estimation de la valeur : l'agent commence avec une estimation initiale de la qualité de l'état actuel ;
  2. Exécution d'une action : il effectue une action, reçoit une récompense et se retrouve dans un nouvel état ;
  3. Mise à jour de l'estimation : en utilisant la récompense et la valeur du nouvel état, l'agent ajuste légèrement son estimation initiale pour la rendre plus précise ;
  4. Répétition : au fil du temps, en répétant cette boucle, l'agent construit progressivement des estimations de valeur meilleures et plus précises pour différents états.

Tableau comparatif

question mark

Comment l'apprentissage par différence temporelle combine-t-il les avantages de la programmation dynamique et des méthodes de Monte Carlo ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

course content

Contenu du cours

Introduction à l'Apprentissage par Renforcement

Introduction à l'Apprentissage par Renforcement

1. Théorie Fondamentale de l'Apprentissage par Renforcement
2. Problème du Bandit Manchot
3. Programmation Dynamique
4. Méthodes de Monte Carlo
5. Apprentissage par Différence Temporelle

book
Qu'est-ce que l'apprentissage par différence temporelle ?

La programmation dynamique et les méthodes de Monte Carlo présentent toutes deux des avantages notables ainsi que des inconvénients majeurs.

Programmation dynamique

La programmation dynamique permet de calculer efficacement la fonction de valeur d'état et d'en déduire une politique optimale. Elle utilise le bootstrapping — calcul de la valeur de l'état actuel à partir des valeurs des états futurs — pour atteindre cet objectif.

Bien que le concept de bootstrapping soit puissant, la programmation dynamique présente deux inconvénients majeurs :

  • Elle nécessite un modèle complet et explicite de l'environnement ;
  • Les valeurs d'état sont calculées pour chaque état, même si l'état est très éloigné du chemin optimal.

Méthodes de Monte Carlo

Les méthodes de Monte Carlo corrigent les deux inconvénients de la programmation dynamique :

  • Absence de nécessité d’un modèle, car l’apprentissage se fait à partir de l’expérience ;
  • L’apprentissage basé sur l’expérience limite l’exploration, ce qui fait que les états non importants sont rarement visités.

Cependant, elles introduisent un nouvel inconvénient : le processus d’apprentissage n’a lieu qu’après la conclusion de l’épisode. Cela limite l’applicabilité des méthodes de Monte Carlo aux tâches épisodiques de petite taille, car les tâches plus grandes nécessiteraient un nombre d’actions extrêmement élevé avant la fin de l’épisode.

Apprentissage par différence temporelle

Note
Définition

L'apprentissage par différence temporelle (TD) résulte de la combinaison des idées issues à la fois de la programmation dynamique et des méthodes de Monte Carlo. Il adopte l'apprentissage par l'expérience des méthodes de Monte Carlo et le combine avec le bootstrap de la programmation dynamique.

En conséquence, l'apprentissage TD corrige les principaux problèmes rencontrés par les deux méthodes :

  • L'apprentissage par l'expérience résout le problème de la nécessité d'un modèle et celui des espaces d'états volumineux ;
  • Le bootstrap résout le problème de l'apprentissage épisodique.

Fonctionnement

L'apprentissage par différence temporelle (TD) fonctionne selon une boucle simple :

  1. Estimation de la valeur : l'agent commence avec une estimation initiale de la qualité de l'état actuel ;
  2. Exécution d'une action : il effectue une action, reçoit une récompense et se retrouve dans un nouvel état ;
  3. Mise à jour de l'estimation : en utilisant la récompense et la valeur du nouvel état, l'agent ajuste légèrement son estimation initiale pour la rendre plus précise ;
  4. Répétition : au fil du temps, en répétant cette boucle, l'agent construit progressivement des estimations de valeur meilleures et plus précises pour différents états.

Tableau comparatif

question mark

Comment l'apprentissage par différence temporelle combine-t-il les avantages de la programmation dynamique et des méthodes de Monte Carlo ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 1
some-alt