Керування методом Монте-Карло з політикою, що використовується
Ідея on-policy методів інтуїтивно зрозуміла: агент навчається, дотримуючись своєї поточної політики, та вдосконалює її на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент додає певний рівень випадковості — іноді пробує альтернативні дії для стимулювання дослідження.
Аналогія
Уявіть, що ви в магазині морозива, де доступні три смаки: шоколад, ваніль і полуниця. Ви полюбляєте шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, вирішуєте спробувати полуницю. Виявляється, полуничне морозиво в цьому магазині надзвичайно смачне, і відтоді ви обираєте його щоразу, коли відвідуєте цей магазин.
Спроба нового смаку не обов'язково була найлогічнішим вибором на основі попереднього досвіду, але це дало можливість відкрити щось нове. Такий тип дослідження лежить в основі on-policy методів.
Стохастичні політики
Формально прийняття цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(a∣s), де:
π(a∣s)>0∀s∈S,a∈A(s)Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.
ε-жадібні політики
Щоб включити дослідження у політику, скористаємося концепцією ε-жадібного дослідження з задачі про багаторукі бандити. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εякщо a=a′argmaxqπ(s,a′)інакшеЦя політика поводиться жадібно більшість часу — обирає дію з найвищою оцінкою — але з імовірністю ε вибирає випадкову дію, гарантуючи, що всі дії мають ненульовий шанс бути обраними (навіть жадібна дія може бути вибрана знову через рівномірне вибіркове дослідження).
На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не зовсім задовольняє умови GPI, якщо ми очікуємо точну оптимальність у межі.
Однак GPI не вимагає, щоб політика ставала оптимальною негайно — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для кращих оцінок.
Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою в міру навчання. На початкових етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному зменшенні ε метод збіжиться до оптимальної політики у межі.
Псевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain the difference between on-policy and off-policy methods?
How does the ε-greedy policy work in practice?
Why is it important to reduce ε over time?
Awesome!
Completion rate improved to 2.7
Керування методом Монте-Карло з політикою, що використовується
Свайпніть щоб показати меню
Ідея on-policy методів інтуїтивно зрозуміла: агент навчається, дотримуючись своєї поточної політики, та вдосконалює її на основі отриманих результатів. Щоб знаходити кращі дії та уникати застрягання у субоптимальній поведінці, агент додає певний рівень випадковості — іноді пробує альтернативні дії для стимулювання дослідження.
Аналогія
Уявіть, що ви в магазині морозива, де доступні три смаки: шоколад, ваніль і полуниця. Ви полюбляєте шоколад, тому зазвичай обираєте саме його. Але одного дня, з цікавості, вирішуєте спробувати полуницю. Виявляється, полуничне морозиво в цьому магазині надзвичайно смачне, і відтоді ви обираєте його щоразу, коли відвідуєте цей магазин.
Спроба нового смаку не обов'язково була найлогічнішим вибором на основі попереднього досвіду, але це дало можливість відкрити щось нове. Такий тип дослідження лежить в основі on-policy методів.
Стохастичні політики
Формально прийняття цієї ідеї означає заміну детермінованих (жорстких) політик, які використовуються в динамічному програмуванні, на стохастичні (м'які) політики, що позначаються як π(a∣s), де:
π(a∣s)>0∀s∈S,a∈A(s)Іншими словами, кожна дія в кожному стані має ненульову ймовірність бути обраною. Це гарантує, що всі частини середовища зрештою будуть досліджені, що є необхідним при навчанні на основі досвіду.
ε-жадібні політики
Щоб включити дослідження у політику, скористаємося концепцією ε-жадібного дослідження з задачі про багаторукі бандити. Це дозволяє визначити стохастичну політику, яка балансує між використанням найкращої відомої дії та дослідженням альтернатив:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εякщо a=a′argmaxqπ(s,a′)інакшеЦя політика поводиться жадібно більшість часу — обирає дію з найвищою оцінкою — але з імовірністю ε вибирає випадкову дію, гарантуючи, що всі дії мають ненульовий шанс бути обраними (навіть жадібна дія може бути вибрана знову через рівномірне вибіркове дослідження).
На перший погляд, цей підхід здається проблематичним: оскільки політика ніколи не стає повністю жадібною, вона ніколи не збіжиться до точно оптимальної політики. Таким чином, це не зовсім задовольняє умови GPI, якщо ми очікуємо точну оптимальність у межі.
Однак GPI не вимагає, щоб політика ставала оптимальною негайно — потрібно лише, щоб кожна політика покращувалася (або залишалася незмінною) порівняно з попередньою, поступово наближаючись до оптимальності. ε-жадібна політика задовольняє цю умову: вона покращує політику в середньому та забезпечує постійне дослідження для кращих оцінок.
Щоб вирішити питання збіжності до справді оптимальної політики, можна поступово зменшувати ε з часом. Така стратегія дозволяє політиці ставати дедалі жадібнішою в міру навчання. На початкових етапах дослідження допомагає отримати різноманітний досвід, а на пізніших — агент використовує набуті знання. При належному зменшенні ε метод збіжиться до оптимальної політики у межі.
Псевдокод
Дякуємо за ваш відгук!