Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Wertiteration | Dynamische Programmierung
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Wertiteration

Obwohl die Policy Iteration ein effektiver Ansatz zur Lösung von MDPs ist, weist sie einen erheblichen Nachteil auf: Jeder Iterationsschritt beinhaltet eine separate Policy Evaluation. Wird die Policy Evaluation iterativ durchgeführt, sind mehrere Durchläufe über den gesamten Zustandsraum erforderlich, was zu erheblichem Rechenaufwand und längeren Berechnungszeiten führt.

Eine gute Alternative ist die Value Iteration, eine Methode, die Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammenführt. Diese Methode aktualisiert die Wertfunktion direkt, bis sie zur optimalen Wertfunktion konvergiert. Nach der Konvergenz kann die optimale Policy direkt aus dieser optimalen Wertfunktion abgeleitet werden.

Funktionsweise

Die Value Iteration arbeitet, indem sie während der Policy Evaluation nur ein Backup durchführt, bevor die Policy Improvement erfolgt. Dies führt zur folgenden Aktualisierungsformel:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Durch die Umwandlung der Bellman-Optimalitätsgleichung in eine Aktualisierungsregel werden Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammengeführt.

Pseudocode

question mark

Basierend auf dem Pseudocode: Wann endet die Value Iteration?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 8

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Wertiteration

Obwohl die Policy Iteration ein effektiver Ansatz zur Lösung von MDPs ist, weist sie einen erheblichen Nachteil auf: Jeder Iterationsschritt beinhaltet eine separate Policy Evaluation. Wird die Policy Evaluation iterativ durchgeführt, sind mehrere Durchläufe über den gesamten Zustandsraum erforderlich, was zu erheblichem Rechenaufwand und längeren Berechnungszeiten führt.

Eine gute Alternative ist die Value Iteration, eine Methode, die Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammenführt. Diese Methode aktualisiert die Wertfunktion direkt, bis sie zur optimalen Wertfunktion konvergiert. Nach der Konvergenz kann die optimale Policy direkt aus dieser optimalen Wertfunktion abgeleitet werden.

Funktionsweise

Die Value Iteration arbeitet, indem sie während der Policy Evaluation nur ein Backup durchführt, bevor die Policy Improvement erfolgt. Dies führt zur folgenden Aktualisierungsformel:

vk+1(s)maxas,rp(s,rs,a)(r+γvk(s))sSv_{k+1}(s) \gets \max_a \sum_{s',r}p(s',r|s,a)\Bigl(r+\gamma v_k(s')\Bigr) \qquad \forall s \in S

Durch die Umwandlung der Bellman-Optimalitätsgleichung in eine Aktualisierungsregel werden Policy Evaluation und Policy Improvement in einem einzigen Schritt zusammengeführt.

Pseudocode

question mark

Basierend auf dem Pseudocode: Wann endet die Value Iteration?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 8
some-alt