Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was ist Zeitdifferenzielles Lernen? | Temporal-Differenz-Lernen
Einführung in das Reinforcement Learning
course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Was ist Zeitdifferenzielles Lernen?

Sowohl dynamische Programmierung als auch Monte-Carlo-Methoden bieten überzeugende Ansätze, weisen jedoch erhebliche Nachteile auf.

Dynamische Programmierung

Die dynamische Programmierung ermöglicht eine effiziente Berechnung der Zustandswertfunktion und die Ableitung einer optimalen Strategie daraus. Sie verwendet Bootstrapping – die Berechnung des aktuellen Zustandswerts auf Basis der Werte zukünftiger Zustände – um dieses Ziel zu erreichen.

Obwohl das Konzept des Bootstrappings sehr wirkungsvoll ist, weist die dynamische Programmierung zwei wesentliche Nachteile auf:

  • Sie erfordert ein vollständiges und explizites Modell der Umgebung;
  • Zustandswerte werden für jeden Zustand berechnet, selbst wenn sich der Zustand weit entfernt vom optimalen Pfad befindet.

Monte-Carlo-Methoden

Monte-Carlo-Methoden beheben die beiden Nachteile der dynamischen Programmierung:

  • Kein Modell erforderlich, da das Lernen aus Erfahrung erfolgt;
  • Die Lernweise aus Erfahrung begrenzt die Exploration, sodass unwichtige Zustände selten besucht werden.

Allerdings entsteht ein neuer Nachteil – der Lernprozess findet erst nach Abschluss der Episode statt. Dies beschränkt die Anwendbarkeit von Monte-Carlo-Methoden auf kleine episodische Aufgaben, da größere Aufgaben eine extrem hohe Anzahl von Aktionen erfordern würden, bis die Episode abgeschlossen ist.

Temporal-Difference-Lernen

Note
Definition

Temporal Difference (TD) Learning ist das Ergebnis der Kombination von Konzepten aus der dynamischen Programmierung und den Monte-Carlo-Methoden. Es übernimmt den Ansatz des Lernens aus Erfahrung von den Monte-Carlo-Methoden und kombiniert diesen mit dem Bootstrapping aus der dynamischen Programmierung.

Als Ergebnis behebt das TD-Lernen die Hauptprobleme beider Methoden:

  • Lernen aus Erfahrung löst das Problem der Modellabhängigkeit und das Problem großer Zustandsräume;
  • Bootstrapping löst das Problem des episodischen Lernens.

Funktionsweise?

TD-Lernen funktioniert durch eine einfache Schleife:

  1. Schätzung des Werts: Der Agent beginnt mit einer anfänglichen Schätzung, wie gut der aktuelle Zustand ist;
  2. Ausführen einer Aktion: Er führt eine Aktion aus, erhält eine Belohnung und gelangt in einen neuen Zustand;
  3. Aktualisierung der Schätzung: Mithilfe der Belohnung und des Werts des neuen Zustands passt der Agent seine ursprüngliche Schätzung leicht an, um sie genauer zu machen;
  4. Wiederholen: Mit der Zeit baut der Agent durch das wiederholte Durchlaufen dieser Schleife nach und nach bessere und genauere Wertschätzungen für verschiedene Zustände auf.

Vergleichstabelle

question mark

Wie kombiniert das Temporal Difference Learning die Stärken von dynamischer Programmierung und Monte-Carlo-Methoden?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

course content

Kursinhalt

Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning

1. Kernprinzipien des RL
2. Multi-Armed-Bandit-Problem
3. Dynamische Programmierung
4. Monte-Carlo-Methoden
5. Temporal-Differenz-Lernen

book
Was ist Zeitdifferenzielles Lernen?

Sowohl dynamische Programmierung als auch Monte-Carlo-Methoden bieten überzeugende Ansätze, weisen jedoch erhebliche Nachteile auf.

Dynamische Programmierung

Die dynamische Programmierung ermöglicht eine effiziente Berechnung der Zustandswertfunktion und die Ableitung einer optimalen Strategie daraus. Sie verwendet Bootstrapping – die Berechnung des aktuellen Zustandswerts auf Basis der Werte zukünftiger Zustände – um dieses Ziel zu erreichen.

Obwohl das Konzept des Bootstrappings sehr wirkungsvoll ist, weist die dynamische Programmierung zwei wesentliche Nachteile auf:

  • Sie erfordert ein vollständiges und explizites Modell der Umgebung;
  • Zustandswerte werden für jeden Zustand berechnet, selbst wenn sich der Zustand weit entfernt vom optimalen Pfad befindet.

Monte-Carlo-Methoden

Monte-Carlo-Methoden beheben die beiden Nachteile der dynamischen Programmierung:

  • Kein Modell erforderlich, da das Lernen aus Erfahrung erfolgt;
  • Die Lernweise aus Erfahrung begrenzt die Exploration, sodass unwichtige Zustände selten besucht werden.

Allerdings entsteht ein neuer Nachteil – der Lernprozess findet erst nach Abschluss der Episode statt. Dies beschränkt die Anwendbarkeit von Monte-Carlo-Methoden auf kleine episodische Aufgaben, da größere Aufgaben eine extrem hohe Anzahl von Aktionen erfordern würden, bis die Episode abgeschlossen ist.

Temporal-Difference-Lernen

Note
Definition

Temporal Difference (TD) Learning ist das Ergebnis der Kombination von Konzepten aus der dynamischen Programmierung und den Monte-Carlo-Methoden. Es übernimmt den Ansatz des Lernens aus Erfahrung von den Monte-Carlo-Methoden und kombiniert diesen mit dem Bootstrapping aus der dynamischen Programmierung.

Als Ergebnis behebt das TD-Lernen die Hauptprobleme beider Methoden:

  • Lernen aus Erfahrung löst das Problem der Modellabhängigkeit und das Problem großer Zustandsräume;
  • Bootstrapping löst das Problem des episodischen Lernens.

Funktionsweise?

TD-Lernen funktioniert durch eine einfache Schleife:

  1. Schätzung des Werts: Der Agent beginnt mit einer anfänglichen Schätzung, wie gut der aktuelle Zustand ist;
  2. Ausführen einer Aktion: Er führt eine Aktion aus, erhält eine Belohnung und gelangt in einen neuen Zustand;
  3. Aktualisierung der Schätzung: Mithilfe der Belohnung und des Werts des neuen Zustands passt der Agent seine ursprüngliche Schätzung leicht an, um sie genauer zu machen;
  4. Wiederholen: Mit der Zeit baut der Agent durch das wiederholte Durchlaufen dieser Schleife nach und nach bessere und genauere Wertschätzungen für verschiedene Zustände auf.

Vergleichstabelle

question mark

Wie kombiniert das Temporal Difference Learning die Stärken von dynamischer Programmierung und Monte-Carlo-Methoden?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 1
some-alt