Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Керування Монте-Карло на Політиці | Методи Монте-Карло
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Керування Монте-Карло на Політиці

Ідея, що лежить в основі on-policy методів, є інтуїтивно зрозумілою: агент навчається, дотримуючись своєї поточної політики, і покращує цю політику на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент впроваджує певний рівень випадковості — іноді пробує альтернативні дії для стимулювання дослідження.

Аналогія

Уявіть, що ви знаходитеся в магазині морозива, де доступні три смаки: шоколад, ваніль та полуниця. Ви полюбляєте шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, вирішуєте спробувати полуницю. Виявляється, що полуничне морозиво в цьому магазині надзвичайно смачне, і ви вирішуєте обирати його щоразу, коли відвідуєте цей магазин.

Спроба нового смаку не обов'язково була найлогічнішим вибором на основі попереднього досвіду, але вона дала змогу відкрити щось нове. Саме такий тип дослідження лежить в основі on-policy методів.

Стохастичні політики

Формально, застосування цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(as)\pi(a | s), де:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.

ε\Large\varepsilon-жадібні політики

Для впровадження дослідження у політику скористаємося концепцією ε\varepsilon-жадібного дослідження з задачі про багаторукий бандит. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:

π(as){1ε+εA(s)якщо a=arg maxaqπ(s,a)εA(s)інакше\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{якщо } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{інакше} \end{dcases}

Ця політика діє жадібно більшість часу — обирає дію з найвищою оцінкою — але з імовірністю ε\varepsilon вибирає випадкову дію, гарантуючи, що всі дії мають ненульову ймовірність бути обраними (навіть жадібна дія може бути вибрана знову шляхом рівномірного вибору).

На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не строго задовольняє умови GPI, якщо очікувати точної оптимальності на межі.

Однак GPI не вимагає негайної оптимальності політики — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε\varepsilon-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для отримання кращих оцінок.

Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε\varepsilon з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою в міру навчання. На ранніх етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному зменшенні ε\varepsilon метод збігається до оптимальної політики на межі.

Псевдокод

question mark

Як стохастичні політики допомагають у дослідженні?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Керування Монте-Карло на Політиці

Ідея, що лежить в основі on-policy методів, є інтуїтивно зрозумілою: агент навчається, дотримуючись своєї поточної політики, і покращує цю політику на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент впроваджує певний рівень випадковості — іноді пробує альтернативні дії для стимулювання дослідження.

Аналогія

Уявіть, що ви знаходитеся в магазині морозива, де доступні три смаки: шоколад, ваніль та полуниця. Ви полюбляєте шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, вирішуєте спробувати полуницю. Виявляється, що полуничне морозиво в цьому магазині надзвичайно смачне, і ви вирішуєте обирати його щоразу, коли відвідуєте цей магазин.

Спроба нового смаку не обов'язково була найлогічнішим вибором на основі попереднього досвіду, але вона дала змогу відкрити щось нове. Саме такий тип дослідження лежить в основі on-policy методів.

Стохастичні політики

Формально, застосування цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(as)\pi(a | s), де:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.

ε\Large\varepsilon-жадібні політики

Для впровадження дослідження у політику скористаємося концепцією ε\varepsilon-жадібного дослідження з задачі про багаторукий бандит. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:

π(as){1ε+εA(s)якщо a=arg maxaqπ(s,a)εA(s)інакше\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{якщо } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{інакше} \end{dcases}

Ця політика діє жадібно більшість часу — обирає дію з найвищою оцінкою — але з імовірністю ε\varepsilon вибирає випадкову дію, гарантуючи, що всі дії мають ненульову ймовірність бути обраними (навіть жадібна дія може бути вибрана знову шляхом рівномірного вибору).

На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не строго задовольняє умови GPI, якщо очікувати точної оптимальності на межі.

Однак GPI не вимагає негайної оптимальності політики — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε\varepsilon-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для отримання кращих оцінок.

Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε\varepsilon з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою в міру навчання. На ранніх етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному зменшенні ε\varepsilon метод збігається до оптимальної політики на межі.

Псевдокод

question mark

Як стохастичні політики допомагають у дослідженні?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 5
some-alt