Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація Політики | Динамічне програмування
Вступ до навчання з підкріпленням

bookІтерація Політики

Ідея, що лежить в основі ітерації політики, є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, доки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, доки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі часткові оновлення відсутні:

  • Під час оцінювання політики значення оновлюються для кожного стану, доки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції значення.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookІтерація Політики

Свайпніть щоб показати меню

Ідея, що лежить в основі ітерації політики, є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, доки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, доки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі часткові оновлення відсутні:

  • Під час оцінювання політики значення оновлюються для кожного стану, доки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції значення.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7
some-alt