Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Off-Policy Керування Методом Монте-Карло
У той час як on-policy методи навчаються, дотримуючись і вдосконалюючи одну й ту ж політику, off-policy методи пропонують інший підхід: вони навчаються щодо однієї політики (цільової політики), виконуючи при цьому іншу (поведінкову політику). Такий поділ є потужним — він дозволяє оцінювати або вдосконалювати цільову політику без необхідності фактично її дотримуватися під час збору даних.
Аналогія
Повернімося до магазину морозива з попереднього розділу. Ви та ваш друг заходите всередину, і знову перед вами три знайомі смаки: шоколад, ваніль та полуниця. Шоколад — ваш улюблений, і перша думка — замовити саме його. Але цей магазин для вас новий, і ви не впевнені, чи варто обирати шоколад. На щастя, ваш друг — відомий поціновувач морозива, який відвідав майже всі магазини у місті. Ви питаєте його думку. "Шоколад тут непоганий," — каже він, — "але повір, полуниця — просто виняткова." Тож, спираючись на його досвід, ви вирішуєте відмовитися від звичного вибору й обрати полуницю.
Це рішення — покладатися на досвід іншого для прийняття власного вибору — і є сутністю off-policy методів. Ви намагаєтеся покращити власне прийняття рішень, використовуючи дані, зібрані під час поведінки іншого. Це все ще дослідження — але воно керується зовнішнім досвідом, а не власним.
Важливість вибірки
Оскільки агент дотримується поведінкової політики під час генерації епізоду, необхідно враховувати невідповідність між тим, що генерує поведінкова політика, і тим, що генерувала б цільова політика. Саме тут і застосовується важливість вибірки.
Важливість вибіркового зважування (importance sampling) полягає у можливості коригувати отримані під політикою поведінки значення повернення так, щоб вони були коректними оцінками для цільової політики.
Розглянемо траєкторію, яка починається з певного стану і слідує певній політиці до завершення епізоду у момент часу . Зокрема, ми спостерігаємо:
Яка ймовірність виникнення цієї траєкторії під політикою ? Вона залежить як від ймовірностей дій політики, так і від динаміки переходів середовища:
Тепер припустимо, що траєкторія насправді була згенерована іншою політикою — політикою поведінки . Щоб коректно використати цю траєкторію для оцінки очікувань під цільовою політикою , необхідно врахувати, наскільки більшою чи меншою була ймовірність цієї послідовності дій під порівняно з .
Тут і з'являється коефіцієнт вибіркового зважування. Він визначається як відносна ймовірність траєкторії під двома політиками:
У підсумку, ймовірності переходів скорочуються, оскільки обидві політики діють в одному середовищі, і значення залежить лише від політик, а не від середовища.
Чому це важливо
Коефіцієнт показує, як потрібно переважити повернення , отримане під політикою поведінки, щоб воно стало незміщеною оцінкою того, яким було б повернення під цільовою політикою:
Іншими словами, навіть якщо дані були зібрані за допомогою , ми все одно можемо оцінити очікувані повернення під — за умови, що надає ненульову ймовірність кожній дії, яку може вибрати (умова покриття).
Практичні аспекти
Дисперсія вибіркового зважування
Використання вибіркового зважування є концептуально простим. Ми коригуємо оцінку функції значення дії , зважуючи кожну спостережувану віддачу відповідним коефіцієнтом вибіркового зважування. Найпростіша формула виглядає так:
де:
- — коефіцієнт вибіркового зважування для -ї траєкторії, що починається з ;
- — віддача з цієї траєкторії;
- — кількість відвідувань .
Це називається звичайним вибірковим зважуванням. Воно забезпечує несмещену оцінку , але може мати дуже високу дисперсію, особливо коли поведінкова та цільова політики суттєво відрізняються.
Щоб зменшити дисперсію, можна використати більш стабільний варіант: зважене вибіркове зважування. Цей метод нормалізує ваги, що зменшує вплив великих коефіцієнтів і забезпечує більш стабільне навчання:
У цій версії чисельник — це та ж сама зважена сума віддач, але знаменник тепер — сума коефіцієнтів вибіркового зважування, а не проста кількість.
Ця оцінка стає зміщеною, але зміщення зменшується зі збільшенням кількості вибірок. На практиці зважене вибіркове зважування є кращим через значно меншу дисперсію та вищу числову стабільність.
Політики
Як і у випадку on-policy, використаємо -жадібні політики як для цільової політики , так і для поведінкової політики .
На перший погляд, здається природним зробити цільову політику повністю жадібною — зрештою, наша кінцева мета — жадібна політика. Проте на практиці це спричиняє серйозну проблему: якщо на будь-якому кроці для дії, яку фактично виконала поведінкова політика, коефіцієнт важливості стає нульовим, і решта епізоду фактично ігнорується.
Використовуючи мале (наприклад, ) у цільовій політиці, ми гарантуємо, що для кожної дії, тому ніколи не обнуляється посеред епізоду. Після завершення навчання легко перетворити отриману ‑жадібну політику на строго жадібну. Як і при on-policy навчанні, у поведінковій політиці слід використовувати спадання , але цього разу це переважно потрібно для числової стабільності, оскільки все ще може стати нульовим посеред епізоду через особливості представлення чисел у комп'ютерах.
Псевдокод
Дякуємо за ваш відгук!