Вивчайте Значення Дій | Проблема Багаторукого Бандита

Значення дії — це фундаментальне поняття у задачі багаторукого бандита. Воно відіграє ключову роль у різних алгоритмах, зокрема epsilon-жадібному та методі верхньої довірчої межі. Основна мета значення дії — надати оцінку очікуваної винагороди при виборі певної дії. Це схоже на значення стан-дія, але не залежить від стану через безстанову природу задачі багаторукого бандита.

Визначення значення дії

Формально значення дії, що позначається як $Q(a)$ , представляє очікувану винагороду за вибір дії $a$ :

\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

де:

$R$ — отримана винагорода;
$A$ — обрана дія.

Оскільки справжній розподіл винагород зазвичай невідомий, необхідно оцінювати $Q(a)$ на основі спостережуваних даних.

Оцінювання значень дій

Існує кілька способів оцінити $Q(a)$ на основі спостережуваних винагород. Найпоширенішим методом є оцінка середнього зразка, яка обчислює середню винагороду, отриману за вибір дії $a$ до моменту часу $t$ :

Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

де:

$Q_t(a)$ — оцінене значення дії $a$ на кроці часу $t$ ;
$N_t(a)$ — кількість разів, коли дія $a$ була обрана до моменту часу $t$ ;
$R_i$ — винагорода, отримана в кожному випадку, коли була виконана дія $a$ .

У міру накопичення більшої кількості зразків ця оцінка збігається до істинної очікуваної винагороди $Q_*(a)$ за умови, що розподіл винагород залишається стаціонарним.

Визначення

Стаціонарний розподіл — це розподіл, який не змінюється з часом, незалежно від того, які дії виконуються або як змінюється середовище.

Правило інкрементного оновлення

Хоча наведена вище формула може бути використана для оцінки значень дій, вона вимагає зберігання всіх попередніх винагород і повторного обчислення їх суми на кожному кроці. Завдяки інкрементним оновленням це стає непотрібним. Формулу для інкрементних оновлень можна вивести так:

\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

де для деякої дії:

$Q_k$ — це оцінка $k$ -ої винагороди, яку можна виразити як середнє перших $k-1$ винагород;
$R_k$ — це фактична $k$ -а винагорода.

Інтуїція

Знаючи оцінку $k$ -ої винагороди, $Q_k$ , і фактичну $k$ -у винагороду, $R_k$ , можна виміряти похибку як різницю між цими значеннями. Далі наступну оцінку можна обчислити, трохи скоригувавши попередню оцінку у напрямку фактичної винагороди, щоб зменшити похибку.

Ця інтуїція приводить до іншої формули, яка виглядає так:

Q_{k+1} = Q_k + \alpha (R_k - Q_k)

де $\alpha$ — це параметр розміру кроку, що визначає швидкість навчання. Як і в попередній формулі, альфа може бути $\frac1k$ , і це призведе до оцінки за середнім зразком. Альтернативно, часто використовується стала $\alpha$ , оскільки вона не потребує додаткового простору (для зберігання кількості виборів дії) і дозволяє адаптуватися до нестабільних середовищ, надаючи більшу вагу останнім спостереженням.

Оптимістична ініціалізація

На початку процесу навчання оцінки значень дій можуть суттєво відрізнятися, що може призвести до передчасної експлуатації. Це означає, що агент може занадто рано використовувати свої початкові знання, віддаючи перевагу субоптимальним діям на основі обмеженого досвіду. Щоб зменшити цю проблему та стимулювати початкове дослідження, однією з простих та ефективних технік є оптимістична ініціалізація.

При оптимістичній ініціалізації значення дій ініціалізуються відносно високими значеннями (наприклад, $Q_0(a) = 1$ замість 0). Такий підхід створює враження, що всі дії спочатку перспективні. У результаті агент мотивований дослідити кожну дію кілька разів, перш ніж зупинитися на найкращому виборі. Ця техніка є найбільш ефективною у поєднанні з постійним розміром кроку.

Примітка

Оптимальна частота вибору дії на цьому та наступних графіках означає частку середовищ, у яких оптимальну дію було обрано на певному кроці часу.

Наприклад, якщо є 10 тестових середовищ, і оптимальна дія була обрана у 6 з них на кроці часу 200, то оптимальна частота вибору дії для цього кроку становитиме 0.6. Ця метрика є корисною для оцінки ефективності, оскільки вона корелює з максимізацією винагороди, не залежачи від точних значень винагород.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 2. Розділ 2

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain more about the difference between sample average and incremental update methods?

How does optimistic initialization affect the exploration-exploitation tradeoff?

What are some practical scenarios where constant step-size is preferred over sample average?

Awesome!

Completion rate improved to 2.7

Свайпніть щоб показати меню