Вивчайте SARSA: Навчання з Часовою Різницею на Політиці

Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес супроводжується знайомою проблемою: компроміс між дослідженням і використанням. Також існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.

Визначення

SARSA — це on-policy TD алгоритм керування, який використовується для оцінки функції цінності дії $q_\pi(s, a)$ . Оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.

Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:

S: поточний стан $S_t$ ;
A: виконана дія $A_t$ ;
R: отримана винагорода $R_{t+1}$ ;
S: наступний стан $S_{t+1}$ ;
A: наступна дія $A_{t+1}$ .

Правило оновлення

Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Тут $A_{t+1}$ — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.

Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агенту одразу використовувати нові оцінки.

Псевдокод

Коли використовувати SARSA?

SARSA є кращим вибором, коли:

Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
Вас влаштовує повільніше збіження в обмін на безпечнішу поведінку під час навчання.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 5. Розділ 3

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between SARSA and Q-learning?

How does the exploration-exploitation tradeoff affect SARSA?

Can you give an example of when SARSA would be better than other methods?

Свайпніть щоб показати меню