Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Поліпшення Політики
Покращення політики — це процес удосконалення політики на основі поточних оцінок функції цінності.
Як і у випадку з оцінкою політики, покращення політики може працювати як з функцією цінності стану, так і з функцією цінності дії. Але для методів динамічного програмування буде використовуватися функція цінності стану.
Тепер, коли ви можете оцінювати функцію цінності стану для будь-якої політики, природним наступним кроком є дослідити, чи існують політики, кращі за поточну. Один зі способів це зробити — розглянути виконання іншої дії у стані , а потім слідувати поточній політиці. Якщо це здається знайомим, то це тому, що це схоже на визначення функції цінності дії:
Якщо це нове значення перевищує початкове значення стану , це свідчить про те, що виконання дії у стані з подальшим дотриманням політики призводить до кращих результатів, ніж суворе дотримання політики . Оскільки стани є незалежними, оптимально завжди обирати дію щоразу, коли зустрічається стан . Таким чином, можна побудувати покращену політику , ідентичну , за винятком того, що вона обирає дію у стані , що буде кращим за початкову політику .
Теорема покращення політики
Викладене вище міркування можна узагальнити як теорему покращення політики:
Доведення цієї теореми є відносно простим і може бути виконане за допомогою багаторазової підстановки:
Стратегія покращення
Оновлення дій для окремих станів може призвести до покращення, але ефективніше оновлювати дії для всіх станів одночасно. Зокрема, для кожного стану обирається дія , яка максимізує значення дії :
де (скорочено від argument of the maximum) — оператор, що повертає значення змінної, при якому функція досягає максимуму.
Отримана жадібна стратегія, позначена як , задовольняє умови теореми покращення стратегії за своєю конструкцією, що гарантує, що не гірша за початкову стратегію , а зазвичай і краща.
Якщо така ж добра, як і , але не краща, то обидві та є оптимальними стратегіями, оскільки їхні функції цінності рівні та задовольняють рівняння оптимальності Беллмана:
Дякуємо за ваш відгук!