Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Інкрементні Реалізації
Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.
On-Policy Monte Carlo Control
Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах MAB:
де для оцінки середнього значення. Єдині значення, які потрібно зберігати — це поточні оцінки значень дій та кількість відвідувань пари стан-дія .
Псевдокод
Off-Policy Monte Carlo Control
Для off-policy методу з звичайним важливісним вибірковим методом усе відбувається так само, як і для on-policy методу.
Більш цікава ситуація виникає з зваженим важливісним вибірковим методом. Рівняння виглядає так само:
але не можна використовувати, оскільки:
- Кожна винагорода зважується за допомогою ;
- Остаточна сума ділиться не на , а на .
Значення , яке можна використовувати у цьому випадку, дорівнює , де:
- — це для поточної траєкторії;
- дорівнює .
І кожного разу, коли пара стан-дія зустрічається, поточної траєкторії додається до :
Псевдокод
Дякуємо за ваш відгук!