Ітерація Політики
Ідея, що лежить в основі ітерації політики, є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, доки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, доки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі часткові оновлення відсутні:
- Під час оцінювання політики значення оновлюються для кожного стану, доки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції значення.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Ітерація Політики
Свайпніть щоб показати меню
Ідея, що лежить в основі ітерації політики, є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, доки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, доки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі часткові оновлення відсутні:
- Під час оцінювання політики значення оновлюються для кожного стану, доки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції значення.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7