Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Вступ до Задачі
Задача про багаторукого бандита (MAB) — це відома проблема у навчанні з підкріпленням, теорії прийняття рішень та теорії ймовірностей. Вона полягає у тому, що агент багаторазово обирає між декількома діями, кожна з яких приносить винагороду з певного фіксованого розподілу ймовірностей. Мета — максимізувати виграш за фіксовану кількість кроків у часі.
Походження задачі
Термін «багаторукий бандит» походить від аналогії з ігровим автоматом, який часто називають «одноруким бандитом» через наявність важеля. У цій ситуації уявіть, що є декілька ігрових автоматів або автомат із декількома важелями (руками), і кожна рука має свій власний розподіл ймовірностей для винагород. Мета — максимізувати виграш за обмежену кількість спроб, ретельно обираючи, який важіль тягнути.
Виклик
Проблема MAB відображає задачу балансування між дослідженням та експлуатацією:
- Дослідження: випробування різних важелів для збору інформації про їхні виплати;
- Експлуатація: використання важеля, який наразі здається найкращим, для максимізації поточних винагород.
Наївний підхід — багаторазове використання одного важеля — може призвести до неоптимальних результатів, якщо існує кращий важіль, який залишився недослідженим. З іншого боку, надмірне дослідження може марнувати ресурси на варіанти з низькою винагородою.
Застосування в реальному світі
Хоча спочатку задача MAB була сформульована у сфері азартних ігор, вона зустрічається у багатьох галузях:
- Онлайн-реклама: вибір найкращої реклами для показу на основі взаємодії користувача;
- Клінічні випробування: тестування кількох методів лікування для визначення найефективнішого;
- Системи рекомендацій: надання користувачам найбільш релевантного контенту.
Дякуємо за ваш відгук!