Ітерація політики
Ідея ітерації політики є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, поки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, поки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі немає часткових оновлень:
- Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції значення.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Ітерація політики
Свайпніть щоб показати меню
Ідея ітерації політики є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, поки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, поки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі немає часткових оновлень:
- Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції значення.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7