Вивчайте Узагальнена Ітерація Політики

У попередніх розділах ви ознайомилися з оцінюванням політики та покращенням політики. Ці процеси доповнюють один одного та природно поєднуються у рамках, відомих як узагальнена ітерація політики.

Визначення

Узагальнена ітерація політики (GPI) — це підхід, у якому оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.

Більшість методів навчання з підкріпленням можна описати в рамках GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.

Взаємодія між двома процесами

Оцінювання політики та її покращення можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:

Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики визначає функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне визначення функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики змінює політику так, щоб вона була жадібною відносно поточних оцінок функції цінності, що зазвичай робить ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до оптимальних форм.

Підсумок

Генералізована ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв'язання MDP. У наступних розділах ви дізнаєтеся, як ці ідеї можна застосувати для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain what generalized policy iteration (GPI) is in simple terms?

What are the main differences between policy iteration and value iteration?

How do policy evaluation and policy improvement interact in practice?