Summary  
This chapter explains the policy iteration algorithm, which alternates between fully evaluating a given policy’s value function and greedily improving the policy based on that value until convergence.

General domain of usage  
Reinforcement learning

Die Idee hinter der **Policy Iteration** ist einfach:
1. Eine anfängliche $$\pi$$ und $$v$$ wählen;
2. Mit der Policy-Bewertung $$v$$ aktualisieren, bis es mit $$\pi$$ konsistent ist;
3. Mit der Policy-Verbesserung $$\pi$$ aktualisieren, bis es bezüglich $$v$$ gierig ist;
4. Schritte 2-3 wiederholen, bis Konvergenz erreicht ist.

Bei dieser Methode gibt es **keine partiellen Aktualisierungen**:
- Während der **Policy-Bewertung** werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
- Während der **Policy-Verbesserung** wird die Policy bezüglich der Wertfunktion gierig gemacht.

Basierend auf dem Pseudocode: Welche Bedingung führt dazu, dass die äußere Schleife der Policy Iteration stoppt?

Reinforcement Learning (RL) ist ein leistungsstarker Zweig des maschinellen Lernens, der sich auf das Training intelligenter Agenten durch Interaktion mit ihrer Umgebung konzentriert. In diesem Kurs lernen Sie, wie Agenten durch Versuch und Irrtum schrittweise effektive Verhaltensweisen entdecken. Beginnend mit grundlegenden Konzepten wie Markow-Entscheidungsprozessen und Multi-Armed Bandits arbeiten Sie sich durch dynamische Programmierung, Monte-Carlo-Methoden und Temporal-Difference-Lernen.

Erfahren Sie, wie Agenten durch Versuch und Irrtum optimale Entscheidungen treffen. Erkunden Sie die Grundlagen der Theorie des Reinforcement Learning. Praktische Erfahrung mit der Einrichtung und Ausführung einer Gymnasium-Umgebung.

Beherrschung des Erkundungs-Ausnutzungs-Dilemmas anhand des Multi-Armed-Bandit-Problems. Implementierung von Aktionswertschätzung, ε-gierigen, Upper-Confidence-Bound- und Gradient-Bandit-Methoden. Bewertung der Leistungsfähigkeit von Algorithmen bei simulierten Aufgaben zur Belohnungsmaximierung.

Dynamische Programmierung für modellbasiertes RL beherrschen. Entdecken, wie Bellman-Gleichungen zur Bewertung und Verbesserung von Policies eingesetzt werden können. Implementierung von Policy- und Value-Iteration-Algorithmen. Untersuchung der generalisierten Policy-Iteration als theoretische Grundlage für modellfreie Methoden.

Monte-Carlo-Methoden für modellfreies RL beherrschen.
Schätzverfahren für Wertfunktionen und Ableitung optimaler Politiken aus vollständigen Episoden.
Implementierung von On-Policy- und Off-Policy-Monte-Carlo-Kontrollalgorithmen.
Erkundungsstrategien zur Optimierung des modellfreien Lernens entdecken.

Beherrschung des Zeitdifferenzlernens für modellfreies RL. Schätzung von Wertfunktionen aus Teilfolgen mithilfe von TD(0)-Aktualisierungen. Implementierung der On-Policy-SARSA- und Off-Policy-Q-Learning-Algorithmen. Kombination von Monte-Carlo-Methoden und Zeitdifferenzlernen in n-Schritt-TD und TD(λ) entdecken.

Politikiteration

Pseudocode

Politikiteration

Pseudocode