Ітерація Політики
Свайпніть щоб показати меню
Ідея ітерації політики є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, поки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, поки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі немає часткових оновлень:
- Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції цінності.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Секція 3. Розділ 7