Керування методом Монте-Карло
Замінюючи крок оцінки політики у стандартному алгоритмі ітерації політики на методи оцінки Монте-Карло, описані в попередньому розділі, можна отримати новий варіант ітерації політики — той, що базується на вибірковому досвіді, а не на динамічному програмуванні.
Однак існує важливе обмеження. У традиційній ітерації політики крок покращення політики залежить від наявності повної моделі середовища. Зокрема, для оновлення політики використовується наступний вираз:
π(s)←aargmaxs′,r∑p(s′,r∣s,a)(r+γv(s′))Це рівняння передбачає, що відомі ймовірності переходу p(s′,r∣s,a). Але саме в цьому і полягає проблема: методи Монте-Карло призначені для налаштувань без моделі, коли динаміка переходів у середовищі невідома. Якщо повна модель доступна, доцільніше використовувати динамічне програмування для всіх етапів, включаючи оцінку політики, оскільки це буде ефективніше та точніше.
Отже, хоча заміна методів оцінки значення на Монте-Карло є кроком до навчання з підкріпленням без моделі, необхідно також знайти спосіб виконувати покращення політики без використання знань про модель. Це вимагає переходу від функції цінності стану до функції цінності дії.
Чому саме цінності дій?
Використовуючи цінності дій, можна виконувати покращення політики без необхідності мати модель середовища. Замість того, щоб покладатися на ймовірності переходу для обчислення очікуваних виграшів, можна безпосередньо обирати дії, які, ймовірно, дають найвищу цінність. Крок покращення політики тоді виглядає так:
π(s)←aargmaxq(s,a)∀s∈SІ неважко довести, що нова політика не гірша за попередню, оскільки теорема покращення політики все ще застосовується:
qπk(s,πk+1(s))=qπk(s,aargmaxqπk(s,a))=amaxqπk(s,a)≥qπk(s,πk(s))=vπk(s)І, як і у випадку з DP, ця теорема гарантує, що або πk+1 краща за πk, або вони рівні й оптимальні.
Оцінка функції значення дії
Процес оцінювання майже ідентичний до функції значення стану. Усі ідеї, що використовуються для оцінки значень стану, можуть бути застосовані для оцінки значень дій.
Псевдокод
Таким чином, після достатньої кількості ітерацій, оцінені значення дій наближатимуться до справжніх значень дій.
Використовуючи це, вже можна побудувати метод, подібний до ітерації політики, який не залежить від моделі. Для цього потрібно замінити етапи оцінки політики та покращення політики на процеси, описані вище.
Оптимізація
Хоча етап оцінки можна виконувати за допомогою оцінювання Монте-Карло, як описано вище, він зазвичай є обчислювально неефективним. Як вже було показано, методи Монте-Карло зазвичай потребують великої кількості вибірок для отримання достатньо точних оцінок. Якщо дотримуватися структури, подібної до ітерації політики, ця неефективність посилюється: після кожного покращення політики потрібно знову запускати оцінювання Монте-Карло для переоцінки нової політики — це призводить до значних витрат ресурсів і повільного навчання.
Більш природною альтернативою є оновлення політики одразу після обробки кожного епізоду. Замість очікування завершення повного циклу оцінки політики, агент може вдосконалювати свою поведінку епізод за епізодом, використовуючи найсвіжіші оцінки значень дій.
Це призводить до методу, який більше нагадує ітерацію значень: поєднання етапів оцінки та покращення в одному кроці. Це підвищує ефективність використання вибірок і пришвидшує обчислення.
Псевдокод
Цей алгоритм слідує структурі GPI, оскільки містить етапи оцінки політики та покращення політики, і називається керування Монте-Карло. Основний недолік цієї конкретної реалізації — припущення про дослідницькі старти. У наступних розділах буде розглянуто, чому це є проблемою та як з цим можна впоратися.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain what "exploring starts" means in this context?
How does Monte Carlo control differ from traditional policy iteration?
What are the main challenges when using Monte Carlo methods for control?
Awesome!
Completion rate improved to 2.7
Керування методом Монте-Карло
Свайпніть щоб показати меню
Замінюючи крок оцінки політики у стандартному алгоритмі ітерації політики на методи оцінки Монте-Карло, описані в попередньому розділі, можна отримати новий варіант ітерації політики — той, що базується на вибірковому досвіді, а не на динамічному програмуванні.
Однак існує важливе обмеження. У традиційній ітерації політики крок покращення політики залежить від наявності повної моделі середовища. Зокрема, для оновлення політики використовується наступний вираз:
π(s)←aargmaxs′,r∑p(s′,r∣s,a)(r+γv(s′))Це рівняння передбачає, що відомі ймовірності переходу p(s′,r∣s,a). Але саме в цьому і полягає проблема: методи Монте-Карло призначені для налаштувань без моделі, коли динаміка переходів у середовищі невідома. Якщо повна модель доступна, доцільніше використовувати динамічне програмування для всіх етапів, включаючи оцінку політики, оскільки це буде ефективніше та точніше.
Отже, хоча заміна методів оцінки значення на Монте-Карло є кроком до навчання з підкріпленням без моделі, необхідно також знайти спосіб виконувати покращення політики без використання знань про модель. Це вимагає переходу від функції цінності стану до функції цінності дії.
Чому саме цінності дій?
Використовуючи цінності дій, можна виконувати покращення політики без необхідності мати модель середовища. Замість того, щоб покладатися на ймовірності переходу для обчислення очікуваних виграшів, можна безпосередньо обирати дії, які, ймовірно, дають найвищу цінність. Крок покращення політики тоді виглядає так:
π(s)←aargmaxq(s,a)∀s∈SІ неважко довести, що нова політика не гірша за попередню, оскільки теорема покращення політики все ще застосовується:
qπk(s,πk+1(s))=qπk(s,aargmaxqπk(s,a))=amaxqπk(s,a)≥qπk(s,πk(s))=vπk(s)І, як і у випадку з DP, ця теорема гарантує, що або πk+1 краща за πk, або вони рівні й оптимальні.
Оцінка функції значення дії
Процес оцінювання майже ідентичний до функції значення стану. Усі ідеї, що використовуються для оцінки значень стану, можуть бути застосовані для оцінки значень дій.
Псевдокод
Таким чином, після достатньої кількості ітерацій, оцінені значення дій наближатимуться до справжніх значень дій.
Використовуючи це, вже можна побудувати метод, подібний до ітерації політики, який не залежить від моделі. Для цього потрібно замінити етапи оцінки політики та покращення політики на процеси, описані вище.
Оптимізація
Хоча етап оцінки можна виконувати за допомогою оцінювання Монте-Карло, як описано вище, він зазвичай є обчислювально неефективним. Як вже було показано, методи Монте-Карло зазвичай потребують великої кількості вибірок для отримання достатньо точних оцінок. Якщо дотримуватися структури, подібної до ітерації політики, ця неефективність посилюється: після кожного покращення політики потрібно знову запускати оцінювання Монте-Карло для переоцінки нової політики — це призводить до значних витрат ресурсів і повільного навчання.
Більш природною альтернативою є оновлення політики одразу після обробки кожного епізоду. Замість очікування завершення повного циклу оцінки політики, агент може вдосконалювати свою поведінку епізод за епізодом, використовуючи найсвіжіші оцінки значень дій.
Це призводить до методу, який більше нагадує ітерацію значень: поєднання етапів оцінки та покращення в одному кроці. Це підвищує ефективність використання вибірок і пришвидшує обчислення.
Псевдокод
Цей алгоритм слідує структурі GPI, оскільки містить етапи оцінки політики та покращення політики, і називається керування Монте-Карло. Основний недолік цієї конкретної реалізації — припущення про дослідницькі старти. У наступних розділах буде розглянуто, чому це є проблемою та як з цим можна впоратися.
Дякуємо за ваш відгук!