Поліпшення Політики
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.
Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, логічним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії a у стані s, а потім дотримуватися поточної політики. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що вона обирає дію a у стані s, що буде кращим за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Оновлення дій для окремих станів може призвести до покращення, але більш ефективно оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від argument of the maximum) — це оператор, що повертає значення змінної, при якому функція досягає максимуму.
Отримана жадібна політика, що позначається як π′, за своєю конструкцією задовольняє умови теореми покращення політики, гарантуючи, що π′ є не гіршою за початкову політику π, а зазвичай — кращою.
Якщо π′ є такою ж доброю, але не кращою за π, тоді обидві π′ і π є оптимальними політиками, оскільки їхні функції значення рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Поліпшення Політики
Свайпніть щоб показати меню
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Однак для методів динамічного програмування використовується функція цінності стану.
Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, логічним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії a у стані s, а потім дотримуватися поточної політики. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що вона обирає дію a у стані s, що буде кращим за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Оновлення дій для окремих станів може призвести до покращення, але більш ефективно оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від argument of the maximum) — це оператор, що повертає значення змінної, при якому функція досягає максимуму.
Отримана жадібна політика, що позначається як π′, за своєю конструкцією задовольняє умови теореми покращення політики, гарантуючи, що π′ є не гіршою за початкову політику π, а зазвичай — кращою.
Якщо π′ є такою ж доброю, але не кращою за π, тоді обидві π′ і π є оптимальними політиками, оскільки їхні функції значення рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!