Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Значення Дій | Проблема Багаторукого Бандита
Вступ до навчання з підкріпленням

bookЗначення Дій

Значення дії — це фундаментальне поняття у задачі багаторукого бандита. Воно відіграє ключову роль у різних алгоритмах, зокрема у epsilon-жадібному та методі верхньої довірчої межі. Основна мета значення дії — надати оцінку очікуваної винагороди при виборі певної дії. Це схоже на значення стан-дія, але не залежить від стану через безстанову природу задачі багаторукого бандита.

Визначення значення дії

Формально значення дії, що позначається як Q(a)Q(a), представляє собою очікувану винагороду при виборі дії aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

де:

  • RR — отримана винагорода;
  • AA — обрана дія.

Оскільки справжній розподіл винагороди зазвичай невідомий, нам необхідно оцінювати Q(a)Q(a), використовуючи спостережувані дані.

Оцінювання значень дій

Існує декілька способів оцінити Q(a)Q(a) на основі спостережуваних винагород. Найпоширенішим методом є оцінка середнього зразка, яка обчислює середню винагороду, отриману за вибір дії aa до моменту часу tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

де:

  • Qt(a)Q_t(a) — оцінене значення дії aa на кроці часу tt;
  • Nt(a)N_t(a) — кількість разів, коли дія aa була обрана до моменту часу tt;
  • RiR_i — винагорода, отримана у кожному випадку, коли була виконана дія aa.

У міру накопичення більшої кількості зразків ця оцінка збігається до істинної очікуваної винагороди Q(a)Q_*(a) за умови, що розподіл винагород залишається стаціонарним.

Note
Визначення

Стаціонарний розподіл — це розподіл, який не змінюється з часом, незалежно від того, які дії виконуються або як змінюється середовище.

Інкрементальне правило оновлення

Хоча наведена вище формула може бути використана для оцінки значень дій, вона вимагає зберігання усіх попередніх винагород і повторного обчислення їхньої суми на кожному кроці. Завдяки інкрементальним оновленням це стає непотрібним. Формулу для інкрементальних оновлень можна вивести так:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

де для певної дії:

  • QkQ_k — це оцінка kk-ої винагороди, яку можна виразити як середнє перших k1k-1 винагород;
  • RkR_k — це фактична kk-а винагорода.

Інтуїція

Знаючи оцінку kk-ої винагороди, QkQ_k, і фактичну kk-у винагороду, RkR_k, можна виміряти похибку як різницю між цими значеннями. Далі наступну оцінку можна обчислити, трохи скоригувавши попередню оцінку у напрямку фактичної винагороди, щоб зменшити похибку.

Ця інтуїція приводить до іншої формули, яка виглядає так:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

де α\alpha — це параметр кроку, що контролює швидкість навчання. Як і в попередній формулі, альфа може бути 1k\frac1k, і це призведе до оцінки середнього зразка. Альтернативно часто використовується стала α\alpha, оскільки вона не потребує додаткового місця (для зберігання кількості виборів дії) і дозволяє адаптуватися до нестабільних середовищ, надаючи більшу вагу останнім спостереженням.

Оптимістична ініціалізація

На початку процесу навчання оцінки значень дій можуть суттєво відрізнятися, що може призвести до передчасної експлуатації. Це означає, що агент може занадто рано використовувати свої початкові знання, віддаючи перевагу неоптимальним діям на основі обмеженого досвіду. Щоб уникнути цієї проблеми та стимулювати початкове дослідження, однією з простих і ефективних технік є оптимістична ініціалізація.

При оптимістичній ініціалізації значення дій ініціалізуються відносно високими значеннями (наприклад, Q0(a)=1Q_0(a) = 1 замість 0). Такий підхід створює враження, що всі дії спочатку перспективні. У результаті агент мотивований дослідити кожну дію кілька разів, перш ніж зупинитися на найкращому виборі. Ця техніка є найбільш ефективною у поєднанні з постійним кроком оновлення.

Note
Примітка

Оптимальна частота вибору дії на цьому та наступних графіках означає частку середовищ, у яких оптимальна дія була обрана на певному кроці часу.

Наприклад, якщо є 10 тестових середовищ, і оптимальна дія була обрана у 6 з них на кроці часу 200, то оптимальна частота вибору дії для цього кроку становитиме 0.6. Ця метрика є корисною для оцінки ефективності, оскільки вона корелює з максимізацією винагороди, не залежачи від точних значень винагород.

question mark

Для чого використовується оцінка середнього зразка у визначенні значення дії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 2

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookЗначення Дій

Свайпніть щоб показати меню

Значення дії — це фундаментальне поняття у задачі багаторукого бандита. Воно відіграє ключову роль у різних алгоритмах, зокрема у epsilon-жадібному та методі верхньої довірчої межі. Основна мета значення дії — надати оцінку очікуваної винагороди при виборі певної дії. Це схоже на значення стан-дія, але не залежить від стану через безстанову природу задачі багаторукого бандита.

Визначення значення дії

Формально значення дії, що позначається як Q(a)Q(a), представляє собою очікувану винагороду при виборі дії aa:

Q(a)=E[RA=a]\def\E{\operatorname{\mathbb{E}}} Q(a) = \E[R | A = a]

де:

  • RR — отримана винагорода;
  • AA — обрана дія.

Оскільки справжній розподіл винагороди зазвичай невідомий, нам необхідно оцінювати Q(a)Q(a), використовуючи спостережувані дані.

Оцінювання значень дій

Існує декілька способів оцінити Q(a)Q(a) на основі спостережуваних винагород. Найпоширенішим методом є оцінка середнього зразка, яка обчислює середню винагороду, отриману за вибір дії aa до моменту часу tt:

Qt(a)=R1+R2+...+RNt(a)Nt(a)=i=1Nt(a)RiNt(a)Q_t(a) = \frac{R_1 + R_2 + ... + R_{N_t(a)}}{N_t(a)} = \frac{\sum_{i=1}^{N_t(a)} R_i}{N_t(a)}

де:

  • Qt(a)Q_t(a) — оцінене значення дії aa на кроці часу tt;
  • Nt(a)N_t(a) — кількість разів, коли дія aa була обрана до моменту часу tt;
  • RiR_i — винагорода, отримана у кожному випадку, коли була виконана дія aa.

У міру накопичення більшої кількості зразків ця оцінка збігається до істинної очікуваної винагороди Q(a)Q_*(a) за умови, що розподіл винагород залишається стаціонарним.

Note
Визначення

Стаціонарний розподіл — це розподіл, який не змінюється з часом, незалежно від того, які дії виконуються або як змінюється середовище.

Інкрементальне правило оновлення

Хоча наведена вище формула може бути використана для оцінки значень дій, вона вимагає зберігання усіх попередніх винагород і повторного обчислення їхньої суми на кожному кроці. Завдяки інкрементальним оновленням це стає непотрібним. Формулу для інкрементальних оновлень можна вивести так:

Qk+1=1ki=1kRi=1k(Rk+i=1k1Ri)=1k(Rk+(k1)Qk)=1k(Rk+kQkQk)=Qk+1k(RkQk)\begin{aligned} Q_{k+1} &= \frac1k \sum_{i=1}^k R_i\\ &= \frac1k (R_k + \sum_{i=1}^{k-1} R_i)\\ &= \frac1k (R_k + (k-1) Q_k)\\ &= \frac1k (R_k + k Q_k - Q_k)\\ &= Q_k + \frac1k(R_k - Q_k) \end{aligned}

де для певної дії:

  • QkQ_k — це оцінка kk-ої винагороди, яку можна виразити як середнє перших k1k-1 винагород;
  • RkR_k — це фактична kk-а винагорода.

Інтуїція

Знаючи оцінку kk-ої винагороди, QkQ_k, і фактичну kk-у винагороду, RkR_k, можна виміряти похибку як різницю між цими значеннями. Далі наступну оцінку можна обчислити, трохи скоригувавши попередню оцінку у напрямку фактичної винагороди, щоб зменшити похибку.

Ця інтуїція приводить до іншої формули, яка виглядає так:

Qk+1=Qk+α(RkQk)Q_{k+1} = Q_k + \alpha (R_k - Q_k)

де α\alpha — це параметр кроку, що контролює швидкість навчання. Як і в попередній формулі, альфа може бути 1k\frac1k, і це призведе до оцінки середнього зразка. Альтернативно часто використовується стала α\alpha, оскільки вона не потребує додаткового місця (для зберігання кількості виборів дії) і дозволяє адаптуватися до нестабільних середовищ, надаючи більшу вагу останнім спостереженням.

Оптимістична ініціалізація

На початку процесу навчання оцінки значень дій можуть суттєво відрізнятися, що може призвести до передчасної експлуатації. Це означає, що агент може занадто рано використовувати свої початкові знання, віддаючи перевагу неоптимальним діям на основі обмеженого досвіду. Щоб уникнути цієї проблеми та стимулювати початкове дослідження, однією з простих і ефективних технік є оптимістична ініціалізація.

При оптимістичній ініціалізації значення дій ініціалізуються відносно високими значеннями (наприклад, Q0(a)=1Q_0(a) = 1 замість 0). Такий підхід створює враження, що всі дії спочатку перспективні. У результаті агент мотивований дослідити кожну дію кілька разів, перш ніж зупинитися на найкращому виборі. Ця техніка є найбільш ефективною у поєднанні з постійним кроком оновлення.

Note
Примітка

Оптимальна частота вибору дії на цьому та наступних графіках означає частку середовищ, у яких оптимальна дія була обрана на певному кроці часу.

Наприклад, якщо є 10 тестових середовищ, і оптимальна дія була обрана у 6 з них на кроці часу 200, то оптимальна частота вибору дії для цього кроку становитиме 0.6. Ця метрика є корисною для оцінки ефективності, оскільки вона корелює з максимізацією винагороди, не залежачи від точних значень винагород.

question mark

Для чого використовується оцінка середнього зразка у визначенні значення дії?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 2
some-alt