Ітерація Значень
Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.
Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.
Як це працює?
Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SПеретворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.
Псевдокод
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Ітерація Значень
Свайпніть щоб показати меню
Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.
Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.
Як це працює?
Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:
vk+1(s)←amaxs′,r∑p(s′,r∣s,a)(r+γvk(s′))∀s∈SПеретворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.
Псевдокод
Дякуємо за ваш відгук!