Q-Навчання: Позаполітичне TD-Навчання
Навчання оптимальної стратегії за допомогою SARSA може бути складним. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати ε з часом, зрештою наближаючись до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.
Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції цінності дії q∗(s,a). Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.
Правило оновлення
На відміну від off-policy керування методом Монте-Карло, Q-навчання не потребує використання importance sampling для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.
Правило оновлення Q-навчання:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної дії, яка фактично була виконана, як у SARSA:
γQ(St+1,At+1)Q-навчання використовує значення найкращої можливої наступної дії:
γamaxQ(St+1,a)Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його off-policy методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.
Коли використовувати Q-навчання?
Q-навчання є кращим вибором, коли:
- Ви працюєте з детермінованими середовищами або середовищами;
- Необхідна вища швидкість збіжності.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Q-Навчання: Позаполітичне TD-Навчання
Свайпніть щоб показати меню
Навчання оптимальної стратегії за допомогою SARSA може бути складним. Подібно до on-policy керування методом Монте-Карло, зазвичай потрібно поступово зменшувати ε з часом, зрештою наближаючись до нуля для переходу від дослідження до експлуатації. Цей процес часто є повільним і може вимагати значного часу на тренування. Альтернативою є використання off-policy методу, такого як Q-learning.
Q-learning — це off-policy TD алгоритм керування, який використовується для оцінки оптимальної функції цінності дії q∗(s,a). Він оновлює свої оцінки на основі поточної найкращої дії, що робить його off-policy алгоритмом.
Правило оновлення
На відміну від off-policy керування методом Монте-Карло, Q-навчання не потребує використання importance sampling для корекції відмінностей між поведінковою та цільовою політиками. Замість цього воно використовує пряме правило оновлення, яке дуже схоже на SARSA, але має одну ключову відмінність.
Правило оновлення Q-навчання:
Q(St,At)←Q(St,At)+α(Rt+1+γamaxQ(St+1,a)−Q(St,At))Єдина відмінність від SARSA полягає у цільовому значенні. Замість використання значення наступної дії, яка фактично була виконана, як у SARSA:
γQ(St+1,At+1)Q-навчання використовує значення найкращої можливої наступної дії:
γamaxQ(St+1,a)Ця незначна зміна має великий вплив: вона дозволяє Q-навчанню оцінювати дії, використовуючи оцінку оптимальної політики, навіть коли агент ще досліджує середовище. Саме це робить його off-policy методом — воно навчається щодо жадібної політики, незалежно від дій, обраних під час тренування.
Коли використовувати Q-навчання?
Q-навчання є кращим вибором, коли:
- Ви працюєте з детермінованими середовищами або середовищами;
- Необхідна вища швидкість збіжності.
Дякуємо за ваш відгук!