SARSA: Навчання з Використанням Політики Методом Тимчасової Різниці
Так само, як і у методах Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І аналогічно, існує два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.
SARSA — це on-policy TD алгоритм керування, який використовується для оцінки функції цінності дії qπ(s,a). Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.
Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:
- S: поточний стан St;
- A: виконана дія At;
- R: отримана винагорода Rt+1;
- S: наступний стан St+1;
- A: наступна дія At+1.
Правило оновлення
Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Тут At+1 — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.
Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.
Псевдокод
Коли використовувати SARSA?
SARSA є кращим вибором, коли:
- Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
- Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain the difference between SARSA and Q-learning?
How does the exploration-exploitation tradeoff affect SARSA?
Can you give an example of when SARSA would be better than other methods?
Awesome!
Completion rate improved to 2.7
SARSA: Навчання з Використанням Політики Методом Тимчасової Різниці
Свайпніть щоб показати меню
Так само, як і у методах Монте-Карло, ми можемо використовувати підхід узагальненої ітерації політики (GPI) для переходу від оцінки функцій цінності до навчання оптимальних політик. Однак цей процес створює знайому проблему: компроміс між дослідженням і використанням. І аналогічно, існує два підходи: on-policy та off-policy. Спочатку розглянемо on-policy метод — SARSA.
SARSA — це on-policy TD алгоритм керування, який використовується для оцінки функції цінності дії qπ(s,a). Він оновлює свої оцінки на основі дії, яка фактично була виконана, що робить його on-policy алгоритмом.
Абревіатура SARSA походить від п’яти ключових компонентів, які використовуються при оновленні:
- S: поточний стан St;
- A: виконана дія At;
- R: отримана винагорода Rt+1;
- S: наступний стан St+1;
- A: наступна дія At+1.
Правило оновлення
Правило оновлення подібне до TD(0), лише замість функції цінності стану використовується функція цінності дії:
Q(St,At)←Q(St,At)+α(Rt+1+γQ(St+1,At+1)−Q(St,At))Тут At+1 — це дія, яка фактично буде виконана на наступному кроці, і вона обирається відповідно до поточної політики. Це означає, що вплив дослідження враховується у процесі навчання.
Після кожного оновлення функції цінності дії політика також оновлюється, що дозволяє агентові негайно використовувати нові оцінки.
Псевдокод
Коли використовувати SARSA?
SARSA є кращим вибором, коли:
- Ви працюєте з середовищами з високою стохастичністю (наприклад, слизькі поверхні, ненадійні переходи);
- Вас влаштовує повільніша збіжність в обмін на безпечнішу поведінку під час навчання.
Дякуємо за ваш відгук!