Вивчайте Off-Policy Керування Методом Монте-Карло

У той час як on-policy методи навчаються, дотримуючись і вдосконалюючи одну й ту ж політику, off-policy методи пропонують інший підхід: вони навчаються щодо однієї політики (цільової політики), виконуючи іншу (поведінкову політику). Такий поділ є потужним — це дозволяє оцінювати або вдосконалювати цільову політику без необхідності фактично дотримуватися її під час збору даних.

Аналогія

Повернімося до магазину морозива з попереднього розділу. Ви та ваш друг заходите всередину, і знову на вибір три знайомі смаки: шоколад, ваніль і полуниця. Шоколад — ваш улюблений смак, і перша думка — замовити саме його. Але цей магазин для вас новий, і ви не впевнені, чи варто обирати шоколад. На щастя, ваш друг — відомий поціновувач морозива, який відвідав майже всі магазини міста. Ви запитуєте його думку. «Шоколад тут непоганий, — каже він, — але повір, полуниця — просто виняткова». Тож, спираючись на його досвід, ви вирішуєте відмовитися від звичного вибору й обрати полуницю.

Це рішення — покладатися на досвід іншого для прийняття власного вибору — і є сутністю off-policy методів. Ви намагаєтеся покращити власне прийняття рішень, використовуючи дані, зібрані під час поведінки іншого. Це все ще дослідження — але воно керується зовнішнім досвідом, а не власним.

Важливість вибірки

Оскільки агент дотримується поведінкової політики під час генерації епізоду, необхідно враховувати невідповідність між тим, що генерує поведінкова політика, і тим, що згенерувала б цільова політика. Саме тут застосовується важливість вибірки.

Важливе вибіркове зважування (importance sampling) надає спосіб скоригувати отримані під політикою поведінки виграші так, щоб вони були коректними оцінками для цільової політики.

Розглянемо траєкторію, яка починається з певного стану $S_t$ і слідує певній політиці $\pi$ до завершення епізоду в момент часу $T$ . Зокрема, ми спостерігаємо:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Яка ймовірність виникнення цієї траєкторії під політикою $\pi$ ? Вона залежить як від ймовірностей дій політики, так і від динаміки переходів середовища:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Тепер припустимо, що траєкторія насправді була згенерована іншою політикою — політикою поведінки $b$ . Щоб коректно використати цю траєкторію для оцінки очікувань під цільовою політикою $\pi$ , потрібно врахувати, наскільки більшою чи меншою була ймовірність цієї послідовності дій під $\pi$ порівняно з $b$ .

Тут і з'являється коефіцієнт важливого вибіркового зважування. Він визначається як відносна ймовірність траєкторії під двома політиками:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

У підсумку, ймовірності переходів скорочуються, оскільки обидві політики діють в одному середовищі, і значення $\rho$ залежить лише від політик, а не від середовища.

Чому це важливо

Коефіцієнт $\rho$ показує, як потрібно переважити виграш $G_t$ , отриманий під політикою поведінки, щоб він став незміщеною оцінкою того, яким би був виграш під цільовою політикою:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Іншими словами, навіть якщо дані були зібрані за допомогою $b$ , ми все одно можемо оцінити очікувані виграші під $\pi$ — за умови, що $b$ надає ненульову ймовірність кожній дії, яку може вибрати $\pi$ (умова покриття).

Практичні аспекти

Дисперсія вибіркового зважування

Використання вибіркового зважування (importance sampling) є концептуально простим. Ми коригуємо оцінку функції значення дії $q(s, a)$ , зважуючи кожну спостережувану віддачу відповідним коефіцієнтом вибіркового зважування. Найпростіша формула виглядає так:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

де:

$\rho_i(s, a)$ — коефіцієнт вибіркового зважування для $i$ -ї траєкторії, що починається з $(s, a)$ ;
$Returns_i(s, a)$ — віддача з цієї траєкторії;
$N(s, a)$ — кількість відвідувань $(s, a)$ .

Цей підхід називається звичайним вибірковим зважуванням. Він забезпечує несмещену оцінку $q(s, a)$ , але може мати дуже високу дисперсію, особливо коли поведінкова та цільова політики суттєво відрізняються.

Щоб зменшити дисперсію, можна використати більш стабільний варіант — зважене вибіркове зважування. Цей метод нормалізує ваги, що зменшує вплив великих коефіцієнтів і забезпечує стабільніше навчання:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

У цій версії чисельник залишається зваженою сумою віддач, але знаменник тепер — сума ваг вибіркового зважування, а не проста кількість.

Ця оцінка стає зміщеною, але зміщення зменшується зі збільшенням кількості вибірок. На практиці зважене вибіркове зважування є кращим через значно меншу дисперсію та вищу числову стабільність.

Політики

Як і у випадку on-policy, використаємо $\varepsilon$ -жадібні політики для цільової політики $\pi(a | s)$ та поведінкової політики $b(a | s)$ .

На перший погляд здається природним зробити цільову політику повністю жадібною — зрештою, наша кінцева мета — жадібна політика. Однак на практиці це створює серйозну проблему: якщо на будь-якому кроці $\pi(a | s) = 0$ для дії, яку фактично виконала поведінкова політика, коефіцієнт важливості $\rho$ стає нульовим, і решта епізоду фактично відкидається.

Використовуючи мале $\varepsilon$ (наприклад, $\varepsilon = 0.01$ ) у цільовій політиці, ми гарантуємо, що $\pi(a | s) > 0$ для кожної дії, тому $\rho$ ніколи не обнуляється посеред епізоду. Після завершення навчання легко перетворити отриману $\varepsilon$ ‑жадібну політику на строго жадібну. Як і при on‑policy навчанні, у поведінковій політиці слід використовувати спадання $\varepsilon$ , але цього разу це переважно потрібно для числової стабільності, оскільки $\rho$ все ще може стати нульовим посеред епізоду через особливості представлення чисел у комп'ютерах.

Псевдокод

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 4. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between ordinary and weighted importance sampling in more detail?

Why does using a fully greedy target policy cause problems in off-policy learning?

Can you summarize the key advantages of off-policy methods compared to on-policy methods?

Свайпніть щоб показати меню