Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Ітерація політики | Динамічне Програмування
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Ітерація політики

Ідея ітерації політики є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, поки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, поки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі немає часткових оновлень:

  • Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції значення.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Ітерація політики

Ідея ітерації політики є простою:

  1. Взяти початкові π\pi та vv;
  2. Використати оцінювання політики для оновлення vv, поки воно не стане узгодженим із π\pi;
  3. Використати покращення політики для оновлення π\pi, поки вона не стане жадібною відносно vv;
  4. Повторювати кроки 2-3 до збіжності.

У цьому методі немає часткових оновлень:

  • Під час оцінювання політики значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
  • Під час покращення політики політика стає жадібною відносно функції значення.

Псевдокод

question mark

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 7
some-alt