Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Узагальнена Ітерація Політики | Динамічне програмування
Вступ до навчання з підкріпленням

bookУзагальнена Ітерація Політики

У попередніх розділах було розглянуто оцінювання політики та покращення політики. Ці процеси доповнюють один одного та природно поєднуються у структуру, відому як узагальнена ітерація політики.

Note
Визначення

Узагальнена ітерація політики (GPI) — це структура, у якій оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.

Більшість методів навчання з підкріпленням можна описати в межах структури GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.

Взаємодія між двома процесами

Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:

  • Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
  • Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику так, щоб вона була жадібною відносно поточних оцінок функції цінності, що зазвичай робить ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до своїх оптимальних форм.

Підсумок

Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв’язання Маркoвських процесів прийняття рішень (MDP). У наступних розділах ви дізнаєтеся, як ці ідеї застосовуються для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.

question mark

Оберіть два процеси, які працюють разом у рамках узагальненої ітерації політики

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 6

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 2.7

bookУзагальнена Ітерація Політики

Свайпніть щоб показати меню

У попередніх розділах було розглянуто оцінювання політики та покращення політики. Ці процеси доповнюють один одного та природно поєднуються у структуру, відому як узагальнена ітерація політики.

Note
Визначення

Узагальнена ітерація політики (GPI) — це структура, у якій оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.

Більшість методів навчання з підкріпленням можна описати в межах структури GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.

Взаємодія між двома процесами

Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:

  • Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
  • Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику так, щоб вона була жадібною відносно поточних оцінок функції цінності, що зазвичай робить ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до своїх оптимальних форм.

Підсумок

Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв’язання Маркoвських процесів прийняття рішень (MDP). У наступних розділах ви дізнаєтеся, як ці ідеї застосовуються для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.

question mark

Оберіть два процеси, які працюють разом у рамках узагальненої ітерації політики

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 6
some-alt