Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Q-Навчання: Позаполітичне TD-Навчання | Навчання з Часовою Різницею
Вступ до навчання з підкріпленням

bookQ-Навчання: Позаполітичне TD-Навчання

Навчання оптимальної стратегії за допомогою SARSA може бути складним. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати ε\varepsilon з часом, зрештою наближаючись до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.

Note
Визначення

Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції цінності дії q(s,a)q_*(s, a). Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.

Правило оновлення

На відміну від off-policy керування методом Монте-Карло, Q-навчання не потребує використання importance sampling для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.

Правило оновлення Q-навчання:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної дії, яка фактично була виконана, як у SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-навчання використовує значення найкращої можливої наступної дії:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його off-policy методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.

Коли використовувати Q-навчання?

Q-навчання є кращим вибором, коли:

  • Ви працюєте з детермінованими середовищами або середовищами;
  • Необхідна вища швидкість збіжності.
question mark

Що відрізняє Q-навчання як позаполітичний алгоритм?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 4

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookQ-Навчання: Позаполітичне TD-Навчання

Свайпніть щоб показати меню

Навчання оптимальної стратегії за допомогою SARSA може бути складним. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати ε\varepsilon з часом, зрештою наближаючись до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.

Note
Визначення

Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції цінності дії q(s,a)q_*(s, a). Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.

Правило оновлення

На відміну від off-policy керування методом Монте-Карло, Q-навчання не потребує використання importance sampling для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.

Правило оновлення Q-навчання:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної дії, яка фактично була виконана, як у SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-навчання використовує значення найкращої можливої наступної дії:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його off-policy методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.

Коли використовувати Q-навчання?

Q-навчання є кращим вибором, коли:

  • Ви працюєте з детермінованими середовищами або середовищами;
  • Необхідна вища швидкість збіжності.
question mark

Що відрізняє Q-навчання як позаполітичний алгоритм?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 4
some-alt