Поліпшення Політики
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Але для методів динамічного програмування буде використовуватися функція цінності стану.
Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, природним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії a у стані s, а потім слідувати поточній політиці. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що вона обирає дію a у стані s, що буде кращим за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Оновлення дій для окремих станів може призвести до покращення, але ефективніше оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від argument of the maximum) — оператор, що повертає значення змінної, при якому функція досягає максимуму.
Отримана жадібна стратегія, позначена як π′, задовольняє умови теореми покращення стратегії за своєю конструкцією, що гарантує, що π′ не гірша за початкову стратегію π, а зазвичай і краща.
Якщо π′ така ж добра, як і π, але не краща, то обидві π′ та π є оптимальними стратегіями, оскільки їхні функції цінності рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Поліпшення Політики
Свайпніть щоб показати меню
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Але для методів динамічного програмування буде використовуватися функція цінності стану.
Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, природним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії a у стані s, а потім слідувати поточній політиці. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Якщо це нове значення перевищує початкове значення стану vπ(s), це свідчить про те, що виконання дії a у стані s з подальшим дотриманням політики π призводить до кращих результатів, ніж суворе дотримання політики π. Оскільки стани є незалежними, оптимально завжди обирати дію a щоразу, коли зустрічається стан s. Таким чином, можна побудувати покращену політику π′, ідентичну π, за винятком того, що вона обирає дію a у стані s, що буде кращим за початкову політику π.
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SДоведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Стратегія покращення
Оновлення дій для окремих станів може призвести до покращення, але ефективніше оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану s обирається дія a, яка максимізує значення дії qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))де argmax (скорочено від argument of the maximum) — оператор, що повертає значення змінної, при якому функція досягає максимуму.
Отримана жадібна стратегія, позначена як π′, задовольняє умови теореми покращення стратегії за своєю конструкцією, що гарантує, що π′ не гірша за початкову стратегію π, а зазвичай і краща.
Якщо π′ така ж добра, як і π, але не краща, то обидві π′ та π є оптимальними стратегіями, оскільки їхні функції цінності рівні та задовольняють рівняння оптимальності Беллмана:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Дякуємо за ваш відгук!