Поліпшення Політики
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.
Тепер, коли можна оцінити функцію цінності стану для будь-якої політики, природним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів зробити це — розглянути виконання іншої дії a у стані s, а потім слідувати поточній політиці. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що у стані s обирається дія a, що робить її кращою за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Хоча оновлення дій для окремих станів може призвести до покращення, більш ефективним є оновлення дій для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від аргумент максимуму) — це оператор, який повертає значення змінної, що максимізує задану функцію.
Отримана жадібна стратегія, позначена як π′, за своєю конструкцією задовольняє умови теореми покращення стратегії, що гарантує, що π′ не гірша за початкову стратегію π, а зазвичай краща.
Якщо π′ така ж добра, як і π, але не краща, то обидві стратегії π′ та π є оптимальними, оскільки їхні функції цінності рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain the policy improvement theorem in simpler terms?
How does the greedy policy guarantee improvement over the original policy?
What is the Bellman optimality equation and why is it important?
Awesome!
Completion rate improved to 2.7
Поліпшення Політики
Свайпніть щоб показати меню
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.
Тепер, коли можна оцінити функцію цінності стану для будь-якої політики, природним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів зробити це — розглянути виконання іншої дії a у стані s, а потім слідувати поточній політиці. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що у стані s обирається дія a, що робить її кращою за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Хоча оновлення дій для окремих станів може призвести до покращення, більш ефективним є оновлення дій для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від аргумент максимуму) — це оператор, який повертає значення змінної, що максимізує задану функцію.
Отримана жадібна стратегія, позначена як π′, за своєю конструкцією задовольняє умови теореми покращення стратегії, що гарантує, що π′ не гірша за початкову стратегію π, а зазвичай краща.
Якщо π′ така ж добра, як і π, але не краща, то обидві стратегії π′ та π є оптимальними, оскільки їхні функції цінності рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!