Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Q-Навчання: Позаполітичне TD-Навчання | Навчання з часовою різницею
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Q-Навчання: Позаполітичне TD-Навчання

Навчання оптимальної стратегії за допомогою SARSA може бути складним завданням. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати ε\varepsilon з часом, зрештою наближаючи його до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.

Note
Визначення

Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції значення дії q(s,a)q_*(s, a). Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.

Правило оновлення

На відміну від позаполітичного керування методом Монте-Карло, Q-навчання не потребує використання вибіркового важливісного зважування (importance sampling) для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.

Правило оновлення Q-навчання:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної фактично виконаної дії, як у SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-навчання використовує значення найкращої можливої наступної дії:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його позаполітичним методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.

Коли використовувати Q-навчання?

Q-навчання є кращим вибором, коли:

  • Використовуються детерміновані середовища або середовища;
  • Необхідна вища швидкість збіжності.
question mark

Що відрізняє Q-навчання як позаполітичний алгоритм?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 4

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Q-Навчання: Позаполітичне TD-Навчання

Навчання оптимальної стратегії за допомогою SARSA може бути складним завданням. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати ε\varepsilon з часом, зрештою наближаючи його до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.

Note
Визначення

Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції значення дії q(s,a)q_*(s, a). Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.

Правило оновлення

На відміну від позаполітичного керування методом Монте-Карло, Q-навчання не потребує використання вибіркового важливісного зважування (importance sampling) для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.

Правило оновлення Q-навчання:

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))Q(S_t, A_t) \gets Q(S_t, A_t) + \alpha \Bigl(R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)\Bigr)

Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної фактично виконаної дії, як у SARSA:

γQ(St+1,At+1)\gamma Q(S_{t+1}, A_{t+1})

Q-навчання використовує значення найкращої можливої наступної дії:

γmaxaQ(St+1,a)\gamma \max_a Q(S_{t+1}, a)

Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його позаполітичним методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.

Коли використовувати Q-навчання?

Q-навчання є кращим вибором, коли:

  • Використовуються детерміновані середовища або середовища;
  • Необхідна вища швидкість збіжності.
question mark

Що відрізняє Q-навчання як позаполітичний алгоритм?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 4
some-alt