Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Значення Дій
Значення дії — це фундаментальне поняття у задачі багаторукого бандита. Воно відіграє ключову роль у різних алгоритмах, зокрема epsilon-жадібному та методі верхньої довірчої межі. Основна мета значення дії — надати оцінку очікуваної винагороди при виборі певної дії. Це схоже на значення стан-дія, але не залежить від стану через безстанову природу задачі багаторукого бандита.
Визначення значення дії
Формально значення дії, що позначається як , відображає очікувану винагороду при виборі дії :
де:
- — отримана винагорода;
- — обрана дія.
Оскільки справжній розподіл винагород зазвичай невідомий, необхідно оцінювати на основі спостережуваних даних.
Оцінювання значень дій
Існує кілька способів оцінити на основі спостережуваних винагород. Найпоширенішим методом є оцінка середнього зразка, яка обчислює середню винагороду, отриману за вибір дії до моменту часу :
де:
- — оцінене значення дії на кроці часу ;
- — кількість разів, коли дія була обрана до моменту часу ;
- — винагорода, отримана в кожному випадку, коли була виконана дія .
У міру того, як збирається більше зразків, ця оцінка збігається до істинної очікуваної винагороди за умови, що розподіл винагород залишається стаціонарним.
Стаціонарний розподіл — це розподіл, який не змінюється з часом, незалежно від того, які дії виконуються або як змінюється середовище.
Правило інкрементного оновлення
Хоча наведена вище формула може бути використана для оцінки значень дій, вона вимагає зберігання усіх попередніх винагород і повторного обчислення їхньої суми на кожному кроці. Завдяки інкрементним оновленням це стає непотрібним. Формулу для інкрементних оновлень можна вивести так:
де для деякої дії:
- — це оцінка -ої винагороди, яку можна виразити як середнє перших винагород;
- — це фактична -а винагорода.
Інтуїція
Знаючи оцінку -ої винагороди, , і фактичну -у винагороду, , можна виміряти похибку як різницю між цими значеннями. Далі наступну оцінку можна обчислити, трохи скоригувавши попередню оцінку у напрямку фактичної винагороди, щоб зменшити похибку.
Ця інтуїція приводить до іншої формули, яка виглядає так:
де — це параметр розміру кроку, що контролює швидкість навчання. Як і в попередній формулі, альфа може бути , і це призведе до оцінки у вигляді середнього зразка. Альтернативно, часто використовується стала , оскільки вона не потребує додаткового простору (для зберігання кількості виборів дії) і дозволяє адаптацію до нестабільних середовищ, надаючи більшу вагу останнім спостереженням.
Оптимістична ініціалізація
На початку процесу навчання оцінки значень дій можуть суттєво відрізнятися, що може призвести до передчасної експлуатації. Це означає, що агент може занадто рано використовувати свої початкові знання, віддаючи перевагу субоптимальним діям на основі обмеженого досвіду. Щоб уникнути цієї проблеми та стимулювати початкове дослідження, однією з простих та ефективних технік є оптимістична ініціалізація.
При оптимістичній ініціалізації значення дій ініціалізуються відносно високими значеннями (наприклад, замість 0). Такий підхід створює враження, що всі дії спочатку перспективні. У результаті агент мотивований дослідити кожну дію кілька разів, перш ніж зупинитися на найкращому виборі. Ця техніка є найбільш ефективною у поєднанні з постійним кроком оновлення.
Оптимальна частота вибору дії на цьому та наступних графіках означає частку середовищ, у яких на певному кроці часу була обрана оптимальна дія.
Наприклад, якщо є 10 тестових середовищ, і на кроці 200 оптимальна дія була обрана у 6 з них, то оптимальна частота вибору дії для цього кроку становитиме 0.6. Ця метрика є корисною для оцінки ефективності, оскільки вона корелює з максимізацією винагороди, не залежачи від точних значень винагород.
Дякуємо за ваш відгук!