Ітерація Значень
Свайпніть щоб показати меню
Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.
Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.
Як це працює?
Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SПеретворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.
Псевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат