Значення Дій
Значення дії — це фундаментальне поняття у задачі багаторукого бандита. Воно відіграє ключову роль у різних алгоритмах, зокрема у epsilon-жадібному та методі верхньої довірчої межі. Основна мета значення дії — надати оцінку очікуваної винагороди при виборі певної дії. Це схоже на значення стан-дія, але не залежить від стану через безстанову природу задачі багаторукого бандита.
Визначення значення дії
Формально значення дії, що позначається як Q(a), представляє собою очікувану винагороду при виборі дії a:
Q(a)=E[R∣A=a]де:
- R — отримана винагорода;
- A — обрана дія.
Оскільки справжній розподіл винагороди зазвичай невідомий, нам необхідно оцінювати Q(a), використовуючи спостережувані дані.
Оцінювання значень дій
Існує декілька способів оцінити Q(a) на основі спостережуваних винагород. Найпоширенішим методом є оцінка середнього зразка, яка обчислює середню винагороду, отриману за вибір дії a до моменту часу t:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Riде:
- Qt(a) — оцінене значення дії a на кроці часу t;
- Nt(a) — кількість разів, коли дія a була обрана до моменту часу t;
- Ri — винагорода, отримана у кожному випадку, коли була виконана дія a.
У міру накопичення більшої кількості зразків ця оцінка збігається до істинної очікуваної винагороди Q∗(a) за умови, що розподіл винагород залишається стаціонарним.
Стаціонарний розподіл — це розподіл, який не змінюється з часом, незалежно від того, які дії виконуються або як змінюється середовище.
Інкрементальне правило оновлення
Хоча наведена вище формула може бути використана для оцінки значень дій, вона вимагає зберігання усіх попередніх винагород і повторного обчислення їхньої суми на кожному кроці. Завдяки інкрементальним оновленням це стає непотрібним. Формулу для інкрементальних оновлень можна вивести так:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)де для певної дії:
- Qk — це оцінка k-ої винагороди, яку можна виразити як середнє перших k−1 винагород;
- Rk — це фактична k-а винагорода.
Інтуїція
Знаючи оцінку k-ої винагороди, Qk, і фактичну k-у винагороду, Rk, можна виміряти похибку як різницю між цими значеннями. Далі наступну оцінку можна обчислити, трохи скоригувавши попередню оцінку у напрямку фактичної винагороди, щоб зменшити похибку.
Ця інтуїція приводить до іншої формули, яка виглядає так:
Qk+1=Qk+α(Rk−Qk)де α — це параметр кроку, що контролює швидкість навчання. Як і в попередній формулі, альфа може бути k1, і це призведе до оцінки середнього зразка. Альтернативно часто використовується стала α, оскільки вона не потребує додаткового місця (для зберігання кількості виборів дії) і дозволяє адаптуватися до нестабільних середовищ, надаючи більшу вагу останнім спостереженням.
Оптимістична ініціалізація
На початку процесу навчання оцінки значень дій можуть суттєво відрізнятися, що може призвести до передчасної експлуатації. Це означає, що агент може занадто рано використовувати свої початкові знання, віддаючи перевагу неоптимальним діям на основі обмеженого досвіду. Щоб уникнути цієї проблеми та стимулювати початкове дослідження, однією з простих і ефективних технік є оптимістична ініціалізація.
При оптимістичній ініціалізації значення дій ініціалізуються відносно високими значеннями (наприклад, Q0(a)=1 замість 0). Такий підхід створює враження, що всі дії спочатку перспективні. У результаті агент мотивований дослідити кожну дію кілька разів, перш ніж зупинитися на найкращому виборі. Ця техніка є найбільш ефективною у поєднанні з постійним кроком оновлення.
Оптимальна частота вибору дії на цьому та наступних графіках означає частку середовищ, у яких оптимальна дія була обрана на певному кроці часу.
Наприклад, якщо є 10 тестових середовищ, і оптимальна дія була обрана у 6 з них на кроці часу 200, то оптимальна частота вибору дії для цього кроку становитиме 0.6. Ця метрика є корисною для оцінки ефективності, оскільки вона корелює з максимізацією винагороди, не залежачи від точних значень винагород.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Значення Дій
Свайпніть щоб показати меню
Значення дії — це фундаментальне поняття у задачі багаторукого бандита. Воно відіграє ключову роль у різних алгоритмах, зокрема у epsilon-жадібному та методі верхньої довірчої межі. Основна мета значення дії — надати оцінку очікуваної винагороди при виборі певної дії. Це схоже на значення стан-дія, але не залежить від стану через безстанову природу задачі багаторукого бандита.
Визначення значення дії
Формально значення дії, що позначається як Q(a), представляє собою очікувану винагороду при виборі дії a:
Q(a)=E[R∣A=a]де:
- R — отримана винагорода;
- A — обрана дія.
Оскільки справжній розподіл винагороди зазвичай невідомий, нам необхідно оцінювати Q(a), використовуючи спостережувані дані.
Оцінювання значень дій
Існує декілька способів оцінити Q(a) на основі спостережуваних винагород. Найпоширенішим методом є оцінка середнього зразка, яка обчислює середню винагороду, отриману за вибір дії a до моменту часу t:
Qt(a)=Nt(a)R1+R2+...+RNt(a)=Nt(a)∑i=1Nt(a)Riде:
- Qt(a) — оцінене значення дії a на кроці часу t;
- Nt(a) — кількість разів, коли дія a була обрана до моменту часу t;
- Ri — винагорода, отримана у кожному випадку, коли була виконана дія a.
У міру накопичення більшої кількості зразків ця оцінка збігається до істинної очікуваної винагороди Q∗(a) за умови, що розподіл винагород залишається стаціонарним.
Стаціонарний розподіл — це розподіл, який не змінюється з часом, незалежно від того, які дії виконуються або як змінюється середовище.
Інкрементальне правило оновлення
Хоча наведена вище формула може бути використана для оцінки значень дій, вона вимагає зберігання усіх попередніх винагород і повторного обчислення їхньої суми на кожному кроці. Завдяки інкрементальним оновленням це стає непотрібним. Формулу для інкрементальних оновлень можна вивести так:
Qk+1=k1i=1∑kRi=k1(Rk+i=1∑k−1Ri)=k1(Rk+(k−1)Qk)=k1(Rk+kQk−Qk)=Qk+k1(Rk−Qk)де для певної дії:
- Qk — це оцінка k-ої винагороди, яку можна виразити як середнє перших k−1 винагород;
- Rk — це фактична k-а винагорода.
Інтуїція
Знаючи оцінку k-ої винагороди, Qk, і фактичну k-у винагороду, Rk, можна виміряти похибку як різницю між цими значеннями. Далі наступну оцінку можна обчислити, трохи скоригувавши попередню оцінку у напрямку фактичної винагороди, щоб зменшити похибку.
Ця інтуїція приводить до іншої формули, яка виглядає так:
Qk+1=Qk+α(Rk−Qk)де α — це параметр кроку, що контролює швидкість навчання. Як і в попередній формулі, альфа може бути k1, і це призведе до оцінки середнього зразка. Альтернативно часто використовується стала α, оскільки вона не потребує додаткового місця (для зберігання кількості виборів дії) і дозволяє адаптуватися до нестабільних середовищ, надаючи більшу вагу останнім спостереженням.
Оптимістична ініціалізація
На початку процесу навчання оцінки значень дій можуть суттєво відрізнятися, що може призвести до передчасної експлуатації. Це означає, що агент може занадто рано використовувати свої початкові знання, віддаючи перевагу неоптимальним діям на основі обмеженого досвіду. Щоб уникнути цієї проблеми та стимулювати початкове дослідження, однією з простих і ефективних технік є оптимістична ініціалізація.
При оптимістичній ініціалізації значення дій ініціалізуються відносно високими значеннями (наприклад, Q0(a)=1 замість 0). Такий підхід створює враження, що всі дії спочатку перспективні. У результаті агент мотивований дослідити кожну дію кілька разів, перш ніж зупинитися на найкращому виборі. Ця техніка є найбільш ефективною у поєднанні з постійним кроком оновлення.
Оптимальна частота вибору дії на цьому та наступних графіках означає частку середовищ, у яких оптимальна дія була обрана на певному кроці часу.
Наприклад, якщо є 10 тестових середовищ, і оптимальна дія була обрана у 6 з них на кроці часу 200, то оптимальна частота вибору дії для цього кроку становитиме 0.6. Ця метрика є корисною для оцінки ефективності, оскільки вона корелює з максимізацією винагороди, не залежачи від точних значень винагород.
Дякуємо за ваш відгук!