Інкрементальні Реалізації
Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.
On-Policy Monte Carlo Control
Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах багаторуких бандитів:
Q(s,a)←Q(s,a)+α(G−Q(s,a))де α=N(s,a)1 для оцінки середнього значення. Єдині значення, які потрібно зберігати, — це поточні оцінки значень дій Q(s,a) та кількість відвідувань пари стан-дія (s,a) N(s,a).
Псевдокод
Off-Policy Monte Carlo Control
Для off-policy методу з звичайним імпортанс-семплінгом усе відбувається так само, як і для on-policy методу.
Більш цікава ситуація виникає з зваженим імпортанс-семплінгом. Рівняння виглядає так само:
Q(s,a)←Q(s,a)+α(G−Q(s,a))але α=N(s,a)1 не можна використовувати, оскільки:
- Кожне повернення зважується за допомогою ρ;
- Остаточна сума ділиться не на N(s,a), а на ∑ρ(s,a).
Значення α, яке можна фактично використати у цьому випадку, дорівнює C(s,a)W, де:
- W — це ρ для поточної траєкторії;
- C(s,a) дорівнює ∑ρ(s,a).
І кожного разу, коли пара стан-дія (s,a) зустрічається, ρ поточної траєкторії додається до C(s,a):
C(s,a)←C(s,a)+WПсевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Інкрементальні Реалізації
Свайпніть щоб показати меню
Зберігання кожного повернення для кожної пари стан-дія може швидко вичерпати пам'ять і суттєво збільшити час обчислень — особливо у великих середовищах. Це обмеження впливає як на on-policy, так і на off-policy алгоритми керування Монте-Карло. Щоб вирішити цю проблему, застосовуються інкрементальні стратегії обчислень, подібні до тих, що використовуються в алгоритмах багаторуких бандитів. Ці методи дозволяють оновлювати оцінки значень у реальному часі, без необхідності зберігати всю історію повернень.
On-Policy Monte Carlo Control
Для on-policy методу стратегія оновлення подібна до стратегії, що використовується в алгоритмах багаторуких бандитів:
Q(s,a)←Q(s,a)+α(G−Q(s,a))де α=N(s,a)1 для оцінки середнього значення. Єдині значення, які потрібно зберігати, — це поточні оцінки значень дій Q(s,a) та кількість відвідувань пари стан-дія (s,a) N(s,a).
Псевдокод
Off-Policy Monte Carlo Control
Для off-policy методу з звичайним імпортанс-семплінгом усе відбувається так само, як і для on-policy методу.
Більш цікава ситуація виникає з зваженим імпортанс-семплінгом. Рівняння виглядає так само:
Q(s,a)←Q(s,a)+α(G−Q(s,a))але α=N(s,a)1 не можна використовувати, оскільки:
- Кожне повернення зважується за допомогою ρ;
- Остаточна сума ділиться не на N(s,a), а на ∑ρ(s,a).
Значення α, яке можна фактично використати у цьому випадку, дорівнює C(s,a)W, де:
- W — це ρ для поточної траєкторії;
- C(s,a) дорівнює ∑ρ(s,a).
І кожного разу, коли пара стан-дія (s,a) зустрічається, ρ поточної траєкторії додається до C(s,a):
C(s,a)←C(s,a)+WПсевдокод
Дякуємо за ваш відгук!