Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Politikiteration | Dynamische Programmierung
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Politikiteration

Die Idee hinter der Policy Iteration ist einfach:

  1. Wähle eine anfängliche π\pi und vv;
  2. Verwende die Policy-Bewertung, um vv zu aktualisieren, bis es mit π\pi konsistent ist;
  3. Verwende die Policy-Verbesserung, um π\pi zu aktualisieren, bis sie bezüglich vv gierig ist;
  4. Wiederhole die Schritte 2-3 bis zur Konvergenz.

Bei dieser Methode gibt es keine partiellen Aktualisierungen:

  • Während der Policy-Bewertung werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
  • Während der Policy-Verbesserung wird die Policy bezüglich der Wertfunktion gierig gemacht.

Pseudocode

question mark

Basierend auf dem Pseudocode: Welche Bedingung führt dazu, dass die äußere Schleife der Policy Iteration stoppt?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 7

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Politikiteration

Die Idee hinter der Policy Iteration ist einfach:

  1. Wähle eine anfängliche π\pi und vv;
  2. Verwende die Policy-Bewertung, um vv zu aktualisieren, bis es mit π\pi konsistent ist;
  3. Verwende die Policy-Verbesserung, um π\pi zu aktualisieren, bis sie bezüglich vv gierig ist;
  4. Wiederhole die Schritte 2-3 bis zur Konvergenz.

Bei dieser Methode gibt es keine partiellen Aktualisierungen:

  • Während der Policy-Bewertung werden die Werte für jeden Zustand aktualisiert, bis sie mit der aktuellen Policy übereinstimmen;
  • Während der Policy-Verbesserung wird die Policy bezüglich der Wertfunktion gierig gemacht.

Pseudocode

question mark

Basierend auf dem Pseudocode: Welche Bedingung führt dazu, dass die äußere Schleife der Policy Iteration stoppt?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 7
some-alt