Інкрементні Реалізації
Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.
On-Policy Monte Carlo Control
Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))де α=N(s,a)1 для оцінки середнього значення. Єдині значення, які потрібно зберігати — це поточні оцінки значень дій Q(s,a) та кількість відвідувань пари стан-дія (s,a) N(s,a).
Псевдокод
Off-Policy Monte Carlo Control
Для off-policy методу з звичайним важливісним вибірковим методом усе відбувається так само, як і для on-policy методу.
Більш цікава ситуація виникає з зваженим важливісним вибірковим методом. Рівняння виглядає так само:
Q(s,a)←Q(s,a)+α(G−Q(s,a))але α=N(s,a)1 не можна використовувати, оскільки:
- Кожна винагорода зважується за допомогою ρ;
- Остаточна сума ділиться не на N(s,a), а на ∑ρ(s,a).
Значення α, яке можна використовувати у цьому випадку, дорівнює C(s,a)W, де:
- W — це ρ для поточної траєкторії;
- C(s,a) дорівнює ∑ρ(s,a).
І кожного разу, коли пара стан-дія (s,a) зустрічається, ρ поточної траєкторії додається до C(s,a):
C(s,a)←C(s,a)+WПсевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Інкрементні Реалізації
Свайпніть щоб показати меню
Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.
On-Policy Monte Carlo Control
Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах MAB:
Q(s,a)←Q(s,a)+α(G−Q(s,a))де α=N(s,a)1 для оцінки середнього значення. Єдині значення, які потрібно зберігати — це поточні оцінки значень дій Q(s,a) та кількість відвідувань пари стан-дія (s,a) N(s,a).
Псевдокод
Off-Policy Monte Carlo Control
Для off-policy методу з звичайним важливісним вибірковим методом усе відбувається так само, як і для on-policy методу.
Більш цікава ситуація виникає з зваженим важливісним вибірковим методом. Рівняння виглядає так само:
Q(s,a)←Q(s,a)+α(G−Q(s,a))але α=N(s,a)1 не можна використовувати, оскільки:
- Кожна винагорода зважується за допомогою ρ;
- Остаточна сума ділиться не на N(s,a), а на ∑ρ(s,a).
Значення α, яке можна використовувати у цьому випадку, дорівнює C(s,a)W, де:
- W — це ρ для поточної траєкторії;
- C(s,a) дорівнює ∑ρ(s,a).
І кожного разу, коли пара стан-дія (s,a) зустрічається, ρ поточної траєкторії додається до C(s,a):
C(s,a)←C(s,a)+WПсевдокод
Дякуємо за ваш відгук!