Інкрементні Реалізації
Свайпніть щоб показати меню
Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.
On-Policy Monte Carlo Control
Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))де α=N(s,a)1 для оцінки середнього значення. Єдині значення, які потрібно зберігати — це поточні оцінки значень дій Q(s,a) та кількість відвідувань пари стан-дія (s,a) N(s,a).
Псевдокод
Off-Policy Monte Carlo Control
Для off-policy методу з звичайним імпортанс-семплінгом усе відбувається так само, як і для on-policy методу.
Більш цікава ситуація виникає з зваженим імпортанс-семплінгом. Рівняння виглядає так само:
Q(s,a)←Q(s,a)+α(G−Q(s,a))але α=N(s,a)1 не можна використовувати, оскільки:
- Кожне повернення зважується за допомогою ρ;
- Остаточна сума ділиться не на N(s,a), а на ∑ρ(s,a).
Значення α, яке можна використати у цьому випадку, дорівнює C(s,a)W, де:
- W — це ρ для поточної траєкторії;
- C(s,a) дорівнює ∑ρ(s,a).
І кожного разу, коли пара стан-дія (s,a) зустрічається, ρ поточної траєкторії додається до C(s,a):
C(s,a)←C(s,a)+WПсевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат