Вивчайте Оцінювання Політики | Динамічне програмування

Визначення

Оцінювання політики — це процес визначення функції цінності для заданої політики.

Примітка

Оцінювання політики може використовуватися для оцінки як функції цінності стану, так і функції цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.

Як відомо, функцію цінності стану для заданої політики можна визначити, розв'язавши рівняння Беллмана:

v_\pi(s) = \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Якщо у вас є повна модель середовища (тобто відомі ймовірності переходів і очікувані винагороди для всіх пар стан-дія), єдиними невідомими змінними в рівнянні залишаються значення станів. Тому наведене вище рівняння можна перетворити на систему з $|S|$ лінійних рівнянь з $|S|$ невідомими.

Наприклад, якщо MDP має 2 стани ( $s_1$ , $s_2$ ) і 2 дії (перехід до $s_1$ , перехід до $s_2$ ), функцію значення стану можна визначити так:

\begin{cases} V(s_1) = 0.5 \cdot (5 + 0.9 \cdot V(s_1)) + 0.5 \cdot (10 + 0.9 \cdot V(s_2)) \\ V(s_2) = 0.7 \cdot (2 + 0.9 \cdot V(s_1)) + 0.3 \cdot (0 + 0.9 \cdot V(s_2)) \end{cases}

Цю систему можна розв'язати стандартними методами лінійної алгебри.

Єдиність розв'язку такої системи лінійних рівнянь гарантується, якщо виконується хоча б одна з наступних умов:

Коефіцієнт дисконту $γ < 1$ ;
Політика $\pi$ , якщо її дотримуватися з будь-якого стану $s$ , гарантує, що епізод зрештою завершиться.

Ітеративне оцінювання політики

Розв'язок можна обчислити безпосередньо, але ітеративний підхід використовується частіше через простоту реалізації. Цей метод починається з присвоєння довільних початкових значень усім станам, крім термінальних, які встановлюються у 0. Далі значення ітеративно оновлюються за допомогою рівняння Беллмана як правила оновлення:

v_{k+1}(s) \gets \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_k(s')\Bigr)

Оцінена функція значення стану $v_k$ зрештою збігається до істинної функції значення стану $v_\pi$ при $k \to \infty$ , якщо $v_\pi$ існує.

Стратегії резервного копіювання значень

Під час оновлення оцінок значень нові оцінки обчислюються на основі попередніх значень. Процес збереження попередніх оцінок називається резервним копіюванням. Існує дві поширені стратегії виконання резервного копіювання:

Повне резервне копіювання: цей метод передбачає збереження нових оцінок у окремому масиві, відмінному від того, що містить попередні (зарезервовані) значення. Відповідно, потрібні два масиви — один для зберігання попередніх оцінок і ще один для нових обчислених значень;
Резервне копіювання на місці: цей підхід зберігає всі значення в одному масиві. Кожна нова оцінка одразу замінює попереднє значення. Цей метод зменшує використання пам'яті, оскільки потрібен лише один масив.

Зазвичай віддають перевагу методу резервного копіювання на місці, оскільки він потребує менше пам'яті та швидше збігається завдяки негайному використанню найновіших оцінок.

Коли припиняти оновлення?

У ітеративній оцінці політики не існує точної точки, в якій алгоритм має зупинитися. Хоча збіжність гарантується у межі, продовжувати обчислення після певного моменту недоцільно на практиці. Простий та ефективний критерій зупинки — відстежувати абсолютну різницю між послідовними оцінками значень, $|v_{k+1}(s) - v_k(s)|$ , і порівнювати її з малим порогом $\theta$ . Якщо після повного циклу оновлення (коли значення для всіх станів оновлено) жодна зміна не перевищує $\theta$ , процес можна безпечно завершити.

Псевдокод

Яке з наступних тверджень є вірним щодо методу ітеративної оцінки політики?

Select the correct answer

Вимагає повної моделі середовища та безпосередньо розв'язує рівняння Беллмана.

Починається з довільних початкових значень для всіх станів і поступово оновлює їх за допомогою рівняння Беллмана.

Гарантує збіжність лише якщо коефіцієнт дисконту більший за 1.

Використовує стратегію повного резервного копіювання для оновлення оцінок цінності.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 4

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between full backup and in-place backup in more detail?

How does the choice of the discount factor γ affect convergence?

Can you walk me through the pseudocode for iterative policy evaluation?

Свайпніть щоб показати меню