Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Керування методом Монте-Карло на політиці | Методи Монте-Карло
Вступ до навчання з підкріпленням

bookКерування методом Монте-Карло на політиці

Ідея on-policy методів інтуїтивно зрозуміла: агент навчається, дотримуючись своєї поточної політики, і покращує цю політику на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент впроваджує певний рівень випадковості — іноді пробує альтернативні дії для заохочення дослідження.

Аналогія

Уявіть, що ви в магазині морозива, і там є три смаки: шоколад, ваніль та полуниця. Ви любите шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, ви вирішуєте спробувати полуницю. Виявляється, полуничне морозиво в цьому магазині надзвичайно смачне, і відтоді ви обираєте його щоразу, коли відвідуєте цей магазин.

Спроба нового смаку не обов'язково була найлогічнішим вибором на основі минулого досвіду, але дала можливість відкрити щось нове. Саме такий тип дослідження лежить в основі on-policy методів.

Стохастичні політики

Формально, застосування цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(as)\pi(a | s), де:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.

ε\Large\varepsilon-жадібні політики

Для впровадження дослідження у політику скористаємося концепцією ε\varepsilon-жадібного дослідження з задачі про багаторукі бандити. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:

π(as){1ε+εA(s)якщо a=arg maxaqπ(s,a)εA(s)інакше\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{якщо } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{інакше} \end{dcases}

Ця політика здебільшого поводиться жадібно — обирає дію з найвищою оцінкою — але з імовірністю ε\varepsilon вибирає випадкову дію, гарантуючи, що кожна дія має ненульовий шанс бути обраною (навіть жадібна дія може бути вибрана знову через рівномірне вибіркове дослідження).

На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не зовсім відповідає умовам GPI, якщо очікувати точної оптимальності на межі.

Однак GPI не вимагає негайної оптимальності політики — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε\varepsilon-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для отримання кращих оцінок.

Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε\varepsilon з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою у процесі навчання. На початкових етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному спаді ε\varepsilon метод збіжиться до оптимальної політики на межі.

Псевдокод

question mark

Як стохастичні політики сприяють дослідженню?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods?

How does the ε-greedy policy work in practice?

Why is it important to reduce ε over time?

Awesome!

Completion rate improved to 2.7

bookКерування методом Монте-Карло на політиці

Свайпніть щоб показати меню

Ідея on-policy методів інтуїтивно зрозуміла: агент навчається, дотримуючись своєї поточної політики, і покращує цю політику на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент впроваджує певний рівень випадковості — іноді пробує альтернативні дії для заохочення дослідження.

Аналогія

Уявіть, що ви в магазині морозива, і там є три смаки: шоколад, ваніль та полуниця. Ви любите шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, ви вирішуєте спробувати полуницю. Виявляється, полуничне морозиво в цьому магазині надзвичайно смачне, і відтоді ви обираєте його щоразу, коли відвідуєте цей магазин.

Спроба нового смаку не обов'язково була найлогічнішим вибором на основі минулого досвіду, але дала можливість відкрити щось нове. Саме такий тип дослідження лежить в основі on-policy методів.

Стохастичні політики

Формально, застосування цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(as)\pi(a | s), де:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.

ε\Large\varepsilon-жадібні політики

Для впровадження дослідження у політику скористаємося концепцією ε\varepsilon-жадібного дослідження з задачі про багаторукі бандити. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:

π(as){1ε+εA(s)якщо a=arg maxaqπ(s,a)εA(s)інакше\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{якщо } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{інакше} \end{dcases}

Ця політика здебільшого поводиться жадібно — обирає дію з найвищою оцінкою — але з імовірністю ε\varepsilon вибирає випадкову дію, гарантуючи, що кожна дія має ненульовий шанс бути обраною (навіть жадібна дія може бути вибрана знову через рівномірне вибіркове дослідження).

На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не зовсім відповідає умовам GPI, якщо очікувати точної оптимальності на межі.

Однак GPI не вимагає негайної оптимальності політики — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε\varepsilon-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для отримання кращих оцінок.

Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε\varepsilon з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою у процесі навчання. На початкових етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному спаді ε\varepsilon метод збіжиться до оптимальної політики на межі.

Псевдокод

question mark

Як стохастичні політики сприяють дослідженню?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 5
some-alt