Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Керування методом Монте-Карло з політикою, що використовується | Методи Монте-Карло
Вступ до навчання з підкріпленням

bookКерування методом Монте-Карло з політикою, що використовується

Ідея on-policy методів інтуїтивно зрозуміла: агент навчається, дотримуючись своєї поточної політики, та вдосконалює її на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент додає певний рівень випадковості — іноді пробує альтернативні дії для стимулювання дослідження.

Аналогія

Уявіть, що ви в магазині морозива, де доступні три смаки: шоколад, ваніль і полуниця. Ви полюбляєте шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, вирішуєте спробувати полуницю. Виявляється, полуничне морозиво в цьому магазині надзвичайно смачне, і відтоді ви обираєте його щоразу, коли відвідуєте цей магазин.

Спроба нового смаку не обов'язково була найлогічнішим вибором на основі попереднього досвіду, але це дало можливість відкрити щось нове. Такий тип дослідження лежить в основі on-policy методів.

Стохастичні політики

Формально прийняття цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(as)\pi(a | s), де:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.

ε\Large\varepsilon-жадібні політики

Щоб включити дослідження у політику, скористаємося концепцією ε\varepsilon-жадібного дослідження з задачі про багаторукі бандити. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:

π(as){1ε+εA(s)якщо a=arg maxaqπ(s,a)εA(s)інакше\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{якщо } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{інакше} \end{dcases}

Ця політика поводиться жадібно більшість часу — обирає дію з найвищою оцінкою — але з імовірністю ε\varepsilon вибирає випадкову дію, гарантуючи, що всі дії мають ненульовий шанс бути обраними (навіть жадібна дія може бути вибрана знову через рівномірне вибіркове дослідження).

На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не зовсім задовольняє умови GPI, якщо ми очікуємо точну оптимальність у межі.

Однак GPI не вимагає, щоб політика ставала оптимальною негайно — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε\varepsilon-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для кращих оцінок.

Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε\varepsilon з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою в міру навчання. На початкових етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному зменшенні ε\varepsilon метод збіжиться до оптимальної політики у межі.

Псевдокод

question mark

Як стохастичні політики допомагають у дослідженні?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods?

How does the ε-greedy policy work in practice?

Why is it important to reduce ε over time?

Awesome!

Completion rate improved to 2.7

bookКерування методом Монте-Карло з політикою, що використовується

Свайпніть щоб показати меню

Ідея on-policy методів інтуїтивно зрозуміла: агент навчається, дотримуючись своєї поточної політики, та вдосконалює її на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент додає певний рівень випадковості — іноді пробує альтернативні дії для стимулювання дослідження.

Аналогія

Уявіть, що ви в магазині морозива, де доступні три смаки: шоколад, ваніль і полуниця. Ви полюбляєте шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, вирішуєте спробувати полуницю. Виявляється, полуничне морозиво в цьому магазині надзвичайно смачне, і відтоді ви обираєте його щоразу, коли відвідуєте цей магазин.

Спроба нового смаку не обов'язково була найлогічнішим вибором на основі попереднього досвіду, але це дало можливість відкрити щось нове. Такий тип дослідження лежить в основі on-policy методів.

Стохастичні політики

Формально прийняття цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(as)\pi(a | s), де:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.

ε\Large\varepsilon-жадібні політики

Щоб включити дослідження у політику, скористаємося концепцією ε\varepsilon-жадібного дослідження з задачі про багаторукі бандити. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:

π(as){1ε+εA(s)якщо a=arg maxaqπ(s,a)εA(s)інакше\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{якщо } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{інакше} \end{dcases}

Ця політика поводиться жадібно більшість часу — обирає дію з найвищою оцінкою — але з імовірністю ε\varepsilon вибирає випадкову дію, гарантуючи, що всі дії мають ненульовий шанс бути обраними (навіть жадібна дія може бути вибрана знову через рівномірне вибіркове дослідження).

На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не зовсім задовольняє умови GPI, якщо ми очікуємо точну оптимальність у межі.

Однак GPI не вимагає, щоб політика ставала оптимальною негайно — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε\varepsilon-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для кращих оцінок.

Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε\varepsilon з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою в міру навчання. На початкових етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному зменшенні ε\varepsilon метод збіжиться до оптимальної політики у межі.

Псевдокод

question mark

Як стохастичні політики допомагають у дослідженні?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 5
some-alt