Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація Політики | Динамічне програмування
Вступ до навчання з підкріпленням

bookІтерація Політики

Ідея ітерації політики є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, поки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, поки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі немає часткових оновлень:

  • Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції цінності.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain what policy evaluation and policy improvement mean in this context?

What does it mean for a policy to be "greedy" with respect to a value function?

Can you walk me through the pseudocode step by step?

Awesome!

Completion rate improved to 2.7

bookІтерація Політики

Свайпніть щоб показати меню

Ідея ітерації політики є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, поки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, поки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі немає часткових оновлень:

  • Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції цінності.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7
some-alt