Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Q-Навчання: Позаполітичне TD-Навчання
Навчання оптимальної стратегії за допомогою SARSA може бути складним завданням. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати з часом, зрештою наближаючи його до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.
Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції значення дії . Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.
Правило оновлення
На відміну від позаполітичного керування методом Монте-Карло, Q-навчання не потребує використання вибіркового важливісного зважування (importance sampling) для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.
Правило оновлення Q-навчання:
Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної фактично виконаної дії, як у SARSA:
Q-навчання використовує значення найкращої можливої наступної дії:
Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його позаполітичним методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.
Коли використовувати Q-навчання?
Q-навчання є кращим вибором, коли:
- Використовуються детерміновані середовища або середовища;
- Необхідна вища швидкість збіжності.
Дякуємо за ваш відгук!