Свайпніть щоб показати меню

Проблема дослідження проти використання є фундаментальною дилемою в навчанні з підкріпленням. Вона виникає, коли агент повинен обирати між двома конкуруючими стратегіями:

Дослідження: випробування нових варіантів для отримання додаткової інформації, навіть якщо негайна винагорода є невизначеною;
Використання: вибір найкращого відомого варіанту на основі попереднього досвіду для максимізації негайної винагороди.

Компроміс

Ця проблема виникає у ситуаціях, коли прийняті рішення впливають на майбутні результати. Якщо агент лише експлуатує вже відому інформацію, він може втратити кращі можливості. З іншого боку, надмірна експлорація може призвести до зайвих ризиків або марної витрати ресурсів без гарантії кращих результатів.

Приклади з реального світу

Онлайн-рекомендації: стрімінговий сервіс може рекомендувати популярний фільм (експлуатація) або запропонувати менш відомий фільм, щоб дізнатися про вподобання користувача (експлорація);
Розробка продукту: компанія може зосередитися на вдосконаленні популярного продукту, який стабільно успішний на ринку (експлуатація), або інвестувати у створення нових продуктів чи функцій (експлорація);
Інвестиційні стратегії: трейдер має вирішити, чи інвестувати у добре зарекомендовані акції (експлуатація), чи експериментувати з новими інвестиціями, які можуть принести вищий прибуток (експлорація).

Проблема

Складність полягає в ефективному балансуванні між цими двома стратегіями. Надмірна експлуатація може призвести до субоптимальних довгострокових результатів, тоді як надмірна експлорація може бути неефективною та затратною. Важливо знайти оптимальний баланс, який максимізує довгострокові вигоди та мінімізує ризики.

Примітка

Існують різні методи балансування експлорації та експлуатації, але для кожної задачі може знадобитися індивідуальний підхід з урахуванням таких факторів, як структура винагород, швидкість змін у середовищі та рівень невизначеності щодо наслідків різних дій.

Ви навчаєте агента з підкріпленням проходити лабіринт. Через дуже тривалий час він навчився надійно знаходити вихід, але шлях, яким він іде, далекий від оптимального. Що ви зробите?

Виберіть правильну відповідь

Продовжувати навчання у тому ж режимі, агент зрештою знайде коротший шлях.

Навчати нового агента з нуля, щоб новий агент мав шанс знайти оптимальний шлях.

Зупинити подальше навчання, неможливо навчити агента знаходити оптимальний шлях.

Збільшити рівень дослідження агента, щоб він більше не знаходив вихід так надійно, але мав кращий шанс знайти оптимальний шлях.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Дослідження проти Використання

Дослідження: випробування нових варіантів для отримання додаткової інформації, навіть якщо негайна винагорода є невизначеною;
Використання: вибір найкращого відомого варіанту на основі попереднього досвіду для максимізації негайної винагороди.