Поліпшення Політики
Свайпніть щоб показати меню
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.
Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, логічним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії a у стані s, а потім дотримуватися поточної політики. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що вона обирає дію a у стані s, що буде кращим за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Оновлення дій для окремих станів може призвести до покращення, але більш ефективно оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від argument of the maximum) — це оператор, що повертає значення змінної, при якому функція досягає максимуму.
Отримана жадібна політика, що позначається як π′, за своєю конструкцією задовольняє умови теореми покращення політики, гарантуючи, що π′ є не гіршою за початкову політику π, а зазвичай — кращою.
Якщо π′ є такою ж доброю, але не кращою за π, тоді обидві π′ і π є оптимальними політиками, оскільки їхні функції значення рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат