Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація політики | Динамічне Програмування
Вступ до навчання з підкріпленням

bookІтерація політики

Ідея ітерації політики є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, поки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, поки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі немає часткових оновлень:

  • Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції значення.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookІтерація політики

Свайпніть щоб показати меню

Ідея ітерації політики є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, поки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, поки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі немає часткових оновлень:

  • Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції значення.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7
some-alt