Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Умови Оптимальності
У попередньому розділі ви ознайомилися з рівняннями Беллмана для функцій цінності стану та функцій цінності стан-дія. Ці рівняння описують, як цінності станів можуть рекурсивно визначатися через цінності інших станів, причому ці значення залежать від заданої політики. Однак не всі політики однаково ефективні. Насправді, функції цінності задають частковий порядок для політик, який можна описати так:
Отже, політика краща або не гірша за політику , якщо для всіх можливих станів очікувана винагорода політики не менша за очікувану винагороду політики .
Частковий порядок підпорядковується звичайним правилам впорядкування, але не вимагає порівнювати кожну пару. У нашому випадку ми можемо впорядкувати дві політики лише тоді, коли вони дають однакові результати або одна з них явно краща за іншу. В усіх інших випадках політики залишаються незрівнянними.
Оптимальна стратегія
Для будь-якого MDP існує принаймні одна стратегія, яка не гірша за всі інші стратегії. Така стратегія називається оптимальною стратегією . Хоча може існувати багато оптимальних стратегій, усі вони позначаються як .
Чому оптимальна стратегія завжди існує?
Ви можете замислитися, чому оптимальна стратегія завжди існує для будь-якої MDP. Це слушне питання, і інтуїція тут досить проста. Пам'ятайте, що стани в MDP повністю відображають стан середовища. Це означає, що кожен стан є незалежним від інших: дія, обрана в одному стані, не впливає на винагороди чи результати, які можна отримати в іншому. Тому, обираючи оптимальну дію окремо для кожного стану, ви природно отримуєте загалом найкращу послідовність дій для всього процесу. А набір оптимальних дій у кожному стані і є оптимальною стратегією.
Крім того, завжди існує принаймні одна стратегія, яка є одночасно оптимальною та детермінованою. Дійсно, якщо для деякого стану дві дії та дають однакову очікувану винагороду, вибір лише однієї з них не вплине на оптимальність стратегії. Застосування цього принципу до кожного окремого стану зробить стратегію детермінованою, зберігаючи її оптимальність.
Оптимальні функції цінності
Оптимальні стратегії мають однакові функції цінності — це стає очевидним, коли розглядається спосіб порівняння стратегій. Це означає, що оптимальні стратегії мають спільні як функцію цінності стану, так і функцію цінності дії.
Крім того, оптимальні функції цінності мають власні рівняння Беллмана, які можна записати без посилання на конкретну стратегію. Ці рівняння називаються рівняннями оптимальності Беллмана.
Оптимальна функція цінності стану
Оптимальна функція цінності стану (або ) — це максимальне очікуване повернення, яке можна отримати з певного стану, дотримуючись оптимальної стратегії.
Це можна математично визначити так:
Рівняння оптимальності Беллмана для цієї функції значення можна вивести наступним чином:
Інтуїція
Як ви вже знаєте, завжди існує принаймні одна політика, яка є одночасно оптимальною та детермінованою. Така політика для кожного стану послідовно обирає одну конкретну дію, що максимізує очікувану винагороду. Тому ймовірність вибору цієї оптимальної дії завжди дорівнює 1, а ймовірність вибору будь-якої іншої дії — 0. Враховуючи це, у початковому рівнянні Беллмана вже не потрібен оператор суми. Замість цього, оскільки ми завжди обираємо найкращу можливу дію, суму можна замінити на максимум по всіх доступних діях.
Оптимальна функція цінності дії
Оптимальна функція цінності дії (або ) визначає максимальне очікуване повернення, яке можна отримати, виконуючи певну дію в певному стані та дотримуючись оптимальної стратегії надалі.
Математично це можна визначити так:
Рівняння оптимальності Беллмана для цієї функції цінності можна вивести так:
Інтуїція
Аналогічно до функції цінності стану, суму можна замінити взяттям максимуму по всіх доступних діях.
Дякуємо за ваш відгук!