Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Узагальнена Ітерація Політики
У попередніх розділах ви ознайомилися з оцінюванням політики та покращенням політики. Ці процеси доповнюють один одного та природно поєднуються у рамках, відомих як узагальнена ітерація політики.
Узагальнена ітерація політики (GPI) — це підхід, у якому оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.
Більшість методів навчання з підкріпленням можна описати в рамках GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.
Взаємодія між двома процесами
Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:
- Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
- Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику, щоб вона була жадібною відносно поточних оцінок функції цінності, зазвичай роблячи ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до оптимальних форм.
Підсумок
Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв'язання MDP. У наступних розділах ви дізнаєтеся, як ці ідеї можна застосувати для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.
Дякуємо за ваш відгук!