Ітерація Політики
Ідея ітерації політики є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, поки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, поки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі немає часткових оновлень:
- Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції цінності.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Suggested prompts:
Can you explain what policy evaluation and policy improvement mean in this context?
What does it mean for a policy to be "greedy" with respect to a value function?
Can you walk me through the pseudocode step by step?
Awesome!
Completion rate improved to 2.7
Ітерація Політики
Свайпніть щоб показати меню
Ідея ітерації політики є простою:
- Взяти початкові π та v;
- Використати оцінювання політики для оновлення v, поки воно не стане узгодженим із π;
- Використати покращення політики для оновлення π, поки вона не стане жадібною відносно v;
- Повторювати кроки 2-3 до збіжності.
У цьому методі немає часткових оновлень:
- Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час покращення політики політика стає жадібною відносно функції цінності.
Псевдокод
Все було зрозуміло?
Дякуємо за ваш відгук!
Секція 3. Розділ 7