Ітерація Значень
Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.
Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.
Як це працює?
Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SПеретворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.
Псевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Ітерація Значень
Свайпніть щоб показати меню
Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.
Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.
Як це працює?
Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SПеретворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.
Псевдокод
Дякуємо за ваш відгук!