Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
SARSA: Навчання з Часовою Різницею на Політиці
Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І так само існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.
SARSA — це on-policy TD алгоритм контролю, який використовується для оцінки функції цінності дії . Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.
Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:
- S: поточний стан ;
- A: виконана дія ;
- R: отримана винагорода ;
- S: наступний стан ;
- A: наступна дія .
Правило оновлення
Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:
Тут — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.
Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.
Псевдокод
Коли використовувати SARSA?
SARSA є кращим вибором, коли:
- Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
- Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
Дякуємо за ваш відгук!