Узагальнена Ітерація Політики
У попередніх розділах було розглянуто оцінювання політики та покращення політики. Ці процеси доповнюють один одного та природно поєднуються у структуру, відому як узагальнена ітерація політики.
Узагальнена ітерація політики (GPI) — це структура, у якій оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.
Більшість методів навчання з підкріпленням можна описати в межах структури GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.
Взаємодія між двома процесами
Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:
- Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
- Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику так, щоб вона була жадібною відносно поточних оцінок функції цінності, що зазвичай робить ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до своїх оптимальних форм.
Підсумок
Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв’язання Маркoвських процесів прийняття рішень (MDP). У наступних розділах ви дізнаєтеся, як ці ідеї застосовуються для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Узагальнена Ітерація Політики
Свайпніть щоб показати меню
У попередніх розділах було розглянуто оцінювання політики та покращення політики. Ці процеси доповнюють один одного та природно поєднуються у структуру, відому як узагальнена ітерація політики.
Узагальнена ітерація політики (GPI) — це структура, у якій оцінювання політики та покращення політики взаємодіють ітеративно з метою визначення оптимальної політики.
Більшість методів навчання з підкріпленням можна описати в межах структури GPI. Основні відмінності між цими методами полягають у конкретних реалізаціях оцінювання політики та покращення політики, а також у характері їхньої взаємодії.
Взаємодія між двома процесами
Оцінювання політики та покращення політики можна розглядати як кооперативні, так і конкурентні процеси, залежно від точки зору:
- Кооперативні: обидва процеси працюють задля спільної мети — знаходження оптимальної політики та функції цінності. Оцінювання політики оцінює функцію цінності для заданої політики, тоді як покращення політики вдосконалює політику на основі цих оцінок;
- Конкурентні: кожен процес має суперечливі цілі. Оцінювання політики спрямоване на точне оцінювання функції цінності для поточної політики, що часто призводить до того, що політика втрачає жадібність. Натомість, покращення політики коригує політику так, щоб вона була жадібною відносно поточних оцінок функції цінності, що зазвичай робить ці оцінки некоректними. Це постійне протистояння триває, доки і політика, і функція цінності не збіжаться до своїх оптимальних форм.
Підсумок
Узагальнена ітерація політики — це корисна концепція для розуміння того, як різні методи навчання з підкріпленням підходять до розв’язання Маркoвських процесів прийняття рішень (MDP). У наступних розділах ви дізнаєтеся, як ці ідеї застосовуються для створення двох основних методів динамічного програмування: ітерації політики та ітерації значення.
Дякуємо за ваш відгук!