Вивчайте Поліпшення Політики | Динамічне програмування

Визначення

Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.

Примітка

Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.

Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, логічним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії $a$ у стані $s$ , а потім дотримуватися поточної політики. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:

q_\pi(s, a) = \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Якщо це нове значення перевищує початкове значення стану $v_\pi(s)$ , це свідчить про те, що виконання дії $a$ у стані $s$ з подальшим дотриманням політики $\pi$ призводить до кращих результатів, ніж суворе дотримання політики $\pi$ . Оскільки стани є незалежними, оптимально завжди обирати дію $a$ щоразу, коли зустрічається стан $s$ . Таким чином, можна побудувати покращену політику $\pi'$ , ідентичну $\pi$ , за винятком того, що вона обирає дію $a$ у стані $s$ , що буде кращим за початкову політику $\pi$ .

Теорема покращення політики

Викладене вище міркування можна узагальнити як теорему покращення політики:

\begin{aligned} &q_\pi(s, \pi'(s)) \ge v_\pi(s) \qquad &\forall s \in S\\ \implies &v_{\pi'}(s) \ge v_\pi(s) \qquad &\forall s \in S \end{aligned}

Доведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:

\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &\le q_\pi(s, \pi'(s))\\ &= \E_{\pi'}[R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t = s]\\ &\le \E_{\pi'}[R_{t+1} + \gamma q_\pi(S_{t+1}, \pi'(S_{t+1})) | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma \E_{\pi'}[R_{t+2} + \gamma v_\pi(S_{t+2})] | S_t = s]\\ &= \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 v_\pi(S_{t+2}) | S_t = s]\\ &...\\ &\le \E_{\pi'}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= v_{\pi'}(s) \end{aligned}

Стратегія покращення

Оновлення дій для окремих станів може призвести до покращення, але більш ефективно оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану $s$ обирається дія $a$ , яка максимізує значення дії $q_\pi(s, a)$ :

\begin{aligned} \pi'(s) &\gets \argmax_a q_\pi(s, a)\\ &\gets \argmax_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

де $\argmax$ (скорочено від argument of the maximum) — це оператор, що повертає значення змінної, при якому функція досягає максимуму.

Отримана жадібна політика, що позначається як $\pi'$ , за своєю конструкцією задовольняє умови теореми покращення політики, гарантуючи, що $\pi'$ є не гіршою за початкову політику $\pi$ , а зазвичай — кращою.

Якщо $\pi'$ є такою ж доброю, але не кращою за $\pi$ , тоді обидві $\pi'$ і $\pi$ є оптимальними політиками, оскільки їхні функції значення рівні та задовольняють рівняння оптимальності Беллмана:

v_\pi(s) = \max_a \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr)

Як прийняття жадібної політики гарантує покращення порівняно з попередньою політикою?

Select the correct answer

Жадібна політика випадково обирає дії, що природно призводить до знаходження кращих результатів.

Жадібна політика завжди обирає дію з найбільшою негайною винагородою, незалежно від майбутніх винагород, що забезпечує довгострокове покращення.

Жадібна політика забезпечує покращення, обираючи дію, яка максимізує поточну оцінку значення дії, таким чином задовольняючи умови теореми покращення політики.

Жадібна політика покращується шляхом систематичного дослідження неоптимальних дій для підтвердження їхніх оцінок значення.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 5

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the policy improvement theorem in simpler terms?

How does the greedy policy guarantee improvement over the original policy?

What is the Bellman optimality equation and why is it important?

Свайпніть щоб показати меню