Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Ітерація політики
Ідея ітерації політики є простою:
- Взяти початкові та ;
- Використати оцінювання політики для оновлення , поки воно не стане узгодженим із ;
- Використати покращення політики для оновлення , поки вона не стане жадібною відносно ;
- Повторювати кроки 2-3 до збіжності.
У цьому методі немає часткових оновлень:
- Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції значення.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7