Вивчайте Q-Навчання: Позаполітичне TD-Навчання

Навчання оптимальної стратегії за допомогою SARSA може бути складним. Подібно до on-policy Monte Carlo контролю, зазвичай потрібно поступово зменшувати $\varepsilon$ з часом, зрештою наближаючись до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.

Визначення

Q-learning — це off-policy TD алгоритм контролю, який використовується для оцінки оптимальної функції цінності дії $q_*(s, a)$ . Оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.

Правило оновлення

На відміну від off-policy керування методом Монте-Карло, Q-навчання не потребує використання importance sampling для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.

Правило оновлення Q-навчання виглядає так:

Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної дії, яка фактично була виконана, як це робить SARSA:

\gamma Q(S_{t+1}, A_{t+1})

Q-навчання використовує значення найкращої можливої наступної дії:

\gamma \max_a Q(S_{t+1}, a)

Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його off-policy методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.

Коли використовувати Q-навчання?

Q-навчання доцільно використовувати, коли:

Ви працюєте з детермінованими середовищами або середовищами;
Необхідна вища швидкість збіжності.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 5. Розділ 4

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the main differences between SARSA and Q-learning in more detail?

When should I choose SARSA over Q-learning?

Can you provide an example of how Q-learning is applied in practice?

Свайпніть щоб показати меню