Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Ітерація Значень
Хоча ітерація політики є ефективним підходом для розв'язання Маркованих процесів прийняття рішень (MDP), вона має суттєвий недолік: кожна ітерація включає окремий етап оцінки політики. Коли оцінка політики виконується ітеративно, це вимагає багаторазового проходження всього простору станів, що призводить до значних обчислювальних витрат і збільшення часу обчислень.
Гарною альтернативою є ітерація значення — метод, який об'єднує оцінку політики та покращення політики в один крок. Цей метод безпосередньо оновлює функцію значення до її збіжності до оптимальної функції значення. Після досягнення збіжності оптимальна політика може бути отримана безпосередньо з цієї оптимальної функції значення.
Як це працює?
Ітерація значення працює шляхом виконання лише одного резервного кроку під час оцінки політики перед покращенням політики. Це призводить до наступної формули оновлення:
Перетворюючи рівняння оптимальності Беллмана на правило оновлення, оцінка політики та покращення політики об'єднуються в один крок.
Псевдокод
Дякуємо за ваш відгук!