Вивчайте Ітерація Значень | Динамічне програмування

Хоча ітерація політики є ефективним підходом для розв'язання марковських процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінювання політики. Коли оцінювання політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.

Гарною альтернативою є ітерація значення — метод, який об'єднує оцінювання політики та покращення політики в один крок. Цей метод оновлює функцію значення безпосередньо до її оптимального значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.

Як це працює?

Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінювання політики перед покращенням політики. Це призводить до наступної формули оновлення:

v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінювання політики та покращення політики об'єднуються в один крок.

Псевдокод

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 8

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Свайпніть щоб показати меню

Як це працює?

v_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Псевдокод

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 8