Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was ist Zeitdifferenzlernen? | Temporal-Differenz-Lernen
Einführung in Reinforcement Learning

bookWas ist Zeitdifferenzlernen?

Sowohl dynamische Programmierung als auch Monte-Carlo-Methoden bieten überzeugende Ansätze, weisen jedoch erhebliche Nachteile auf.

Dynamische Programmierung

Die dynamische Programmierung ermöglicht eine effiziente Berechnung der Zustandswertfunktion und die Ableitung einer optimalen Strategie. Sie verwendet Bootstrapping – die Berechnung des aktuellen Zustandswerts auf Basis der Werte zukünftiger Zustände – um dieses Ziel zu erreichen.

Obwohl das Konzept des Bootstrappings leistungsfähig ist, weist die dynamische Programmierung zwei wesentliche Nachteile auf:

  • Sie erfordert ein vollständiges und explizites Modell der Umgebung;
  • Zustandswerte werden für jeden Zustand berechnet, selbst wenn sich der Zustand nicht in der Nähe des optimalen Pfads befindet.

Monte-Carlo-Methoden

Monte-Carlo-Methoden beheben die beiden Nachteile der dynamischen Programmierung:

  • Sie benötigen kein Modell, da sie aus Erfahrungen lernen;
  • Die Art und Weise, wie sie aus Erfahrungen lernen, begrenzt die Exploration, sodass unwichtige Zustände selten besucht werden.

Allerdings führen sie einen neuen Nachteil ein – der Lernprozess findet erst nach Abschluss der Episode statt. Dies beschränkt die Anwendbarkeit von Monte-Carlo-Methoden auf kleine episodische Aufgaben, da größere Aufgaben eine extrem hohe Anzahl von Aktionen erfordern würden, bis die Episode abgeschlossen ist.

Temporal-Difference-Lernen

Note
Definition

Temporal-Difference-Lernen (TD-Lernen) ist das Ergebnis der Kombination von Konzepten aus der dynamischen Programmierung und den Monte-Carlo-Methoden. Es übernimmt den Ansatz des Lernens aus Erfahrung von den Monte-Carlo-Methoden und kombiniert diesen mit dem Bootstrapping aus der dynamischen Programmierung.

Als Ergebnis behebt das TD-Lernen die Hauptprobleme beider Methoden:

  • Lernen aus Erfahrung adressiert das Problem der Modellabhängigkeit und das Problem großer Zustandsräume;
  • Bootstrapping adressiert das Problem des episodischen Lernens.

Wie funktioniert es?

TD-Lernen funktioniert durch eine einfache Schleife:

  1. Schätzung des Werts: Der Agent beginnt mit einer anfänglichen Schätzung, wie gut der aktuelle Zustand ist;
  2. Ausführen einer Aktion: Er führt eine Aktion aus, erhält eine Belohnung und gelangt in einen neuen Zustand;
  3. Aktualisierung der Schätzung: Mithilfe der Belohnung und des Werts des neuen Zustands passt der Agent seine ursprüngliche Schätzung leicht an, um sie genauer zu machen;
  4. Wiederholung: Im Laufe der Zeit baut der Agent durch wiederholtes Durchlaufen dieser Schleife nach und nach bessere und genauere Wertschätzungen für verschiedene Zustände auf.

Vergleichstabelle

question mark

Wie kombiniert das Temporal Difference Learning die Stärken von dynamischer Programmierung und Monte-Carlo-Methoden?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.7

bookWas ist Zeitdifferenzlernen?

Swipe um das Menü anzuzeigen

Sowohl dynamische Programmierung als auch Monte-Carlo-Methoden bieten überzeugende Ansätze, weisen jedoch erhebliche Nachteile auf.

Dynamische Programmierung

Die dynamische Programmierung ermöglicht eine effiziente Berechnung der Zustandswertfunktion und die Ableitung einer optimalen Strategie. Sie verwendet Bootstrapping – die Berechnung des aktuellen Zustandswerts auf Basis der Werte zukünftiger Zustände – um dieses Ziel zu erreichen.

Obwohl das Konzept des Bootstrappings leistungsfähig ist, weist die dynamische Programmierung zwei wesentliche Nachteile auf:

  • Sie erfordert ein vollständiges und explizites Modell der Umgebung;
  • Zustandswerte werden für jeden Zustand berechnet, selbst wenn sich der Zustand nicht in der Nähe des optimalen Pfads befindet.

Monte-Carlo-Methoden

Monte-Carlo-Methoden beheben die beiden Nachteile der dynamischen Programmierung:

  • Sie benötigen kein Modell, da sie aus Erfahrungen lernen;
  • Die Art und Weise, wie sie aus Erfahrungen lernen, begrenzt die Exploration, sodass unwichtige Zustände selten besucht werden.

Allerdings führen sie einen neuen Nachteil ein – der Lernprozess findet erst nach Abschluss der Episode statt. Dies beschränkt die Anwendbarkeit von Monte-Carlo-Methoden auf kleine episodische Aufgaben, da größere Aufgaben eine extrem hohe Anzahl von Aktionen erfordern würden, bis die Episode abgeschlossen ist.

Temporal-Difference-Lernen

Note
Definition

Temporal-Difference-Lernen (TD-Lernen) ist das Ergebnis der Kombination von Konzepten aus der dynamischen Programmierung und den Monte-Carlo-Methoden. Es übernimmt den Ansatz des Lernens aus Erfahrung von den Monte-Carlo-Methoden und kombiniert diesen mit dem Bootstrapping aus der dynamischen Programmierung.

Als Ergebnis behebt das TD-Lernen die Hauptprobleme beider Methoden:

  • Lernen aus Erfahrung adressiert das Problem der Modellabhängigkeit und das Problem großer Zustandsräume;
  • Bootstrapping adressiert das Problem des episodischen Lernens.

Wie funktioniert es?

TD-Lernen funktioniert durch eine einfache Schleife:

  1. Schätzung des Werts: Der Agent beginnt mit einer anfänglichen Schätzung, wie gut der aktuelle Zustand ist;
  2. Ausführen einer Aktion: Er führt eine Aktion aus, erhält eine Belohnung und gelangt in einen neuen Zustand;
  3. Aktualisierung der Schätzung: Mithilfe der Belohnung und des Werts des neuen Zustands passt der Agent seine ursprüngliche Schätzung leicht an, um sie genauer zu machen;
  4. Wiederholung: Im Laufe der Zeit baut der Agent durch wiederholtes Durchlaufen dieser Schleife nach und nach bessere und genauere Wertschätzungen für verschiedene Zustände auf.

Vergleichstabelle

question mark

Wie kombiniert das Temporal Difference Learning die Stärken von dynamischer Programmierung und Monte-Carlo-Methoden?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 1
some-alt