SARSA: Навчання з Часовою Різницею на Політиці
Свайпніть щоб показати меню
Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес супроводжується знайомою проблемою: компроміс між дослідженням і використанням. Також існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.
SARSA — це on-policy TD алгоритм керування, який використовується для оцінки функції цінності дії qπ(s,a). Оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.
Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:
- S: поточний стан St;
- A: виконана дія At;
- R: отримана винагорода Rt+1;
- S: наступний стан St+1;
- A: наступна дія At+1.
Правило оновлення
Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Тут At+1 — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.
Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агенту одразу використовувати нові оцінки.
Псевдокод
Коли використовувати SARSA?
SARSA є кращим вибором, коли:
- Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
- Вас влаштовує повільніше збіження в обмін на безпечнішу поведінку під час навчання.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат