Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Ідея **ітерації політики** є простою:
1. Взяти початкові $$\pi$$ та $$v$$;
2. Використати оцінювання політики для оновлення $$v$$, поки воно не стане узгодженим із $$\pi$$;
3. Використати покращення політики для оновлення $$\pi$$, поки вона не стане жадібною відносно $$v$$;
4. Повторювати кроки 2-3 до збіжності.

У цьому методі **немає часткових оновлень**:
- Під час **оцінювання політики** значення оновлюються для кожного стану, поки вони не стануть узгодженими з поточною політикою;
- Під час **покращення політики** політика стає жадібною відносно функції цінності.

Виходячи з псевдокоду, яка умова зупиняє зовнішній цикл ітерації політики?

Навчання з підкріпленням (RL) — це потужна гілка машинного навчання, зосереджена на тренуванні інтелектуальних агентів шляхом їхньої взаємодії з оточенням. У цьому курсі ви дізнаєтеся, як агенти поступово знаходять ефективні стратегії через спроби та помилки. Починаючи з основних понять, таких як марковські процеси прийняття рішень і багаторукі бандити, ви поступово перейдете до динамічного програмування, методів Монте-Карло та навчання з часовою різницею.

Дізнайтеся, як навчати агентів приймати оптимальні рішення шляхом спроб і помилок. Ознайомтеся з основами теорії підкріплювального навчання. Отримайте практичний досвід налаштування та запуску середовища Gymnasium.

Опанування компромісу між дослідженням і використанням через проблему багаторукого бандита. Реалізація оцінки цінності дій, ε-жадібного методу, методу верхньої довірчої межі та градієнтного бандита. Оцінювання ефективності алгоритмів на змодельованих завданнях максимізації винагороди.

Опанування динамічного програмування для модельно-орієнтованого навчання з підкріпленням. Вивчення використання рівнянь Беллмана для оцінки та покращення стратегій. Реалізація алгоритмів ітерації політики та ітерації значення. Ознайомлення з узагальненою ітерацією політики як теоретичною основою для безмодельних методів.

Опанування методів Монте-Карло для безмодельного навчання з підкріпленням. Оцінювання функцій цінності та виведення оптимальних стратегій на основі повних епізодів. Реалізація алгоритмів керування Монте-Карло на політиці та поза політикою. Вивчення стратегій дослідження для оптимізації безмодельного навчання.

Опанування навчання з часовою різницею для безмодельного підкріплення. Оцінювання функцій цінності за частковими епізодами з використанням оновлень TD(0). Реалізація алгоритмів SARSA на політиці та Q-Learning поза політикою. Вивчення поєднання методів Монте-Карло та навчання з часовою різницею у n-кроковому TD та TD(λ).

Ітерація Політики

Псевдокод