Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Узагальнена Ітерація Політики | Динамічне Програмування
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Узагальнена Ітерація Політики

У попередніх розділах ви ознайомилися з оцінюванням політики та покращенням політики. Ці процеси доповнюють один одного та природно поєднуються у рамках, відомих як узагальнена ітерація політики.

Note
Визначення

Узагальнена ітерація політики (GPI) — це підхід, у якому оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.

Більшість методів навчання з підкріпленням можна описати в рамках GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.

Взаємодія між двома процесами

Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:

  • Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
  • Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику, щоб вона була жадібною відносно поточних оцінок функції цінності, зазвичай роблячи ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до оптимальних форм.

Підсумок

Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв'язання MDP. У наступних розділах ви дізнаєтеся, як ці ідеї можна застосувати для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.

question mark

Виберіть два процеси, які працюють разом у рамках узагальненої ітерації політики

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 6

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Узагальнена Ітерація Політики

У попередніх розділах ви ознайомилися з оцінюванням політики та покращенням політики. Ці процеси доповнюють один одного та природно поєднуються у рамках, відомих як узагальнена ітерація політики.

Note
Визначення

Узагальнена ітерація політики (GPI) — це підхід, у якому оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.

Більшість методів навчання з підкріпленням можна описати в рамках GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.

Взаємодія між двома процесами

Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:

  • Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
  • Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику, щоб вона була жадібною відносно поточних оцінок функції цінності, зазвичай роблячи ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до оптимальних форм.

Підсумок

Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв'язання MDP. У наступних розділах ви дізнаєтеся, як ці ідеї можна застосувати для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.

question mark

Виберіть два процеси, які працюють разом у рамках узагальненої ітерації політики

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 6
some-alt