Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте SARSA: Навчання з Часовою Різницею на Політиці | Навчання з часовою різницею
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
SARSA: Навчання з Часовою Різницею на Політиці

Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І так само існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.

Note
Визначення

SARSA — це on-policy TD алгоритм контролю, який використовується для оцінки функції цінності дії qπ(s,a)q_\pi(s, a). Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.

Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:

  • S: поточний стан StS_t;
  • A: виконана дія AtA_t;
  • R: отримана винагорода Rt+1R_{t+1};
  • S: наступний стан St+1S_{t+1};
  • A: наступна дія At+1A_{t+1}.

Правило оновлення

Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Тут At+1A_{t+1} — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.

Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.

Псевдокод

Коли використовувати SARSA?

SARSA є кращим вибором, коли:

  • Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
  • Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
question mark

У якому випадку SARSA є особливо кращим?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 3

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
SARSA: Навчання з Часовою Різницею на Політиці

Як і у випадку з методами Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І так само існують два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.

Note
Визначення

SARSA — це on-policy TD алгоритм контролю, який використовується для оцінки функції цінності дії qπ(s,a)q_\pi(s, a). Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.

Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:

  • S: поточний стан StS_t;
  • A: виконана дія AtA_t;
  • R: отримана винагорода Rt+1R_{t+1};
  • S: наступний стан St+1S_{t+1};
  • A: наступна дія At+1A_{t+1}.

Правило оновлення

Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:

Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,At+1)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)\Bigr)

Тут At+1A_{t+1} — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.

Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.

Псевдокод

Коли використовувати SARSA?

SARSA є кращим вибором, коли:

  • Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
  • Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
question mark

У якому випадку SARSA є особливо кращим?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 3
some-alt