SARSA: Навчання з Часовою Різницею на Політиці
Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І так само існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.
SARSA — це on-policy TD алгоритм контролю, який використовується для оцінки функції цінності дії qπ(s,a). Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.
Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:
- S: поточний стан St;
- A: виконана дія At;
- R: отримана винагорода Rt+1;
- S: наступний стан St+1;
- A: наступна дія At+1.
Правило оновлення
Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Тут At+1 — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.
Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.
Псевдокод
Коли використовувати SARSA?
SARSA є кращим вибором, коли:
- Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
- Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
SARSA: Навчання з Часовою Різницею на Політиці
Свайпніть щоб показати меню
Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І так само існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.
SARSA — це on-policy TD алгоритм контролю, який використовується для оцінки функції цінності дії qπ(s,a). Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.
Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:
- S: поточний стан St;
- A: виконана дія At;
- R: отримана винагорода Rt+1;
- S: наступний стан St+1;
- A: наступна дія At+1.
Правило оновлення
Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Тут At+1 — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.
Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.
Псевдокод
Коли використовувати SARSA?
SARSA є кращим вибором, коли:
- Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
- Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
Дякуємо за ваш відгук!