Contenu du cours
Introduction à l'Apprentissage par Renforcement
Introduction à l'Apprentissage par Renforcement
Conditions d'Optimalité
Dans le chapitre précédent, vous avez découvert les équations de Bellman pour les fonctions de valeur d’état et de valeur d’état-action. Ces équations décrivent comment les valeurs d’état peuvent être définies de manière récursive à partir des valeurs d’autres états, ces valeurs dépendant d’une politique donnée. Cependant, toutes les politiques ne sont pas aussi efficaces. En réalité, les fonctions de valeur établissent un ordre partiel entre les politiques, qui peut être décrit comme suit :
Ainsi, la politique est meilleure ou égale à la politique si, pour tous les états possibles, le rendement espéré de la politique n’est pas inférieur à celui de la politique .
Un ordre partiel suit les règles habituelles d’ordre mais n’impose pas la comparaison de chaque paire. Dans notre cas, nous ne pouvons classer deux politiques que si elles produisent les mêmes résultats, ou si l’une surpasse clairement l’autre. Dans tous les autres cas, les politiques restent incomparables.
Politique optimale
Pour tout MDP, il existe au moins une politique qui est aussi bonne ou meilleure que toutes les autres politiques. Cette politique est appelée politique optimale . Bien qu'il puisse exister plusieurs politiques optimales, elles sont toutes notées .
Pourquoi une politique optimale existe-t-elle toujours ?
Vous vous demandez peut-être pourquoi une politique optimale existe toujours pour tout MDP. C'est une excellente question, et l'intuition derrière cela est étonnamment simple. Rappelez-vous que les états dans un MDP capturent entièrement la condition de l'environnement. Cela implique que chaque état est indépendant des autres : l'action choisie dans un état n'affecte pas les récompenses ou les résultats atteignables dans un autre. Par conséquent, en sélectionnant l'action optimale dans chaque état séparément, vous obtenez naturellement la meilleure séquence globale d'actions sur l'ensemble du processus. Et cet ensemble d'actions optimales dans chaque état constitue une politique optimale.
De plus, il existe toujours au moins une politique qui est à la fois optimale et déterministe. En effet, si pour un certain état , deux actions et produisent le même retour espéré, en choisir une seule n'affectera pas l'optimalité de la politique. Appliquer ce principe à chaque état rendra la politique déterministe tout en préservant son optimalité.
Fonctions de valeur optimales
Les politiques optimales partagent les mêmes fonctions de valeur — un fait qui devient évident lorsque l’on considère la manière dont les politiques sont comparées. Cela signifie que les politiques optimales partagent à la fois la fonction de valeur d’état et la fonction de valeur d’action.
De plus, les fonctions de valeur optimales possèdent leurs propres équations de Bellman qui peuvent être formulées sans référence à une politique spécifique. Ces équations sont appelées équations d’optimalité de Bellman.
Fonction de valeur d’état optimale
La fonction de valeur d’état optimale (ou ) représente le rendement espéré maximal atteignable à partir d’un certain état en suivant une politique optimale.
Elle peut être définie mathématiquement comme suit :
L’équation d’optimalité de Bellman pour cette fonction de valeur peut être dérivée ainsi :
Intuition
Comme vous le savez déjà, il existe toujours au moins une politique à la fois optimale et déterministe. Une telle politique sélectionnerait, pour chaque état, une action particulière qui maximise les retours attendus. Par conséquent, la probabilité de choisir cette action optimale serait toujours 1, et la probabilité de choisir toute autre action serait 0. Dans ce contexte, l’équation de Bellman d’origine n’a plus besoin de l’opérateur de sommation. Puisque l’on sait que la meilleure action sera toujours sélectionnée, il suffit de remplacer la somme par la prise du maximum sur l’ensemble des actions disponibles.
Fonction de valeur d'action optimale
Fonction de valeur d'action optimale (ou ) représente le rendement espéré maximal pouvant être obtenu en effectuant une certaine action dans un certain état, puis en suivant la politique optimale par la suite.
Elle peut être définie mathématiquement comme suit :
Équation d'optimalité de Bellman pour cette fonction de valeur peut être dérivée ainsi :
Intuition
De manière similaire à la fonction de valeur d'état, la somme peut être remplacée par la prise d'un maximum sur toutes les actions disponibles.
Merci pour vos commentaires !