Lernen Was ist Zeitdifferenzlernen?

Sowohl dynamische Programmierung als auch Monte-Carlo-Methoden bieten überzeugende Ansätze, weisen jedoch erhebliche Nachteile auf.

Dynamische Programmierung

Die dynamische Programmierung ermöglicht eine effiziente Berechnung der Zustandswertfunktion und die Ableitung einer optimalen Strategie daraus. Sie verwendet Bootstrapping – die Berechnung des aktuellen Zustandswerts auf Basis der Werte zukünftiger Zustände – um dieses Ziel zu erreichen.

Obwohl das Konzept des Bootstrappings leistungsfähig ist, weist die dynamische Programmierung zwei wesentliche Nachteile auf:

Sie erfordert ein vollständiges und explizites Modell der Umgebung;
Zustandswerte werden für jeden Zustand berechnet, selbst wenn sich der Zustand nicht in der Nähe des optimalen Pfads befindet.

Monte-Carlo-Methoden

Monte-Carlo-Methoden beheben die beiden Nachteile der dynamischen Programmierung:

Sie benötigen kein Modell, da sie aus Erfahrung lernen;
Die Art und Weise, wie sie aus Erfahrung lernen, begrenzt die Exploration, sodass unwichtige Zustände selten besucht werden.

Allerdings führen sie einen neuen Nachteil ein – der Lernprozess findet erst nach Abschluss der Episode statt. Dies beschränkt die Anwendbarkeit von Monte-Carlo-Methoden auf kleine episodische Aufgaben, da größere Aufgaben eine absurd große Anzahl von Aktionen erfordern würden, bis die Episode abgeschlossen ist.

Temporale Differenzlernen

Definition

Temporal-Difference-Lernen (TD-Lernen) ist das Ergebnis der Kombination von Konzepten aus der dynamischen Programmierung und den Monte-Carlo-Methoden. Es übernimmt den Ansatz des Lernens aus Erfahrung von den Monte-Carlo-Methoden und kombiniert diesen mit dem Bootstrapping aus der dynamischen Programmierung.

Als Ergebnis behebt das TD-Lernen die Hauptprobleme der beiden Methoden:

Lernen aus Erfahrung löst das Problem, ein Modell zu benötigen, sowie das Problem großer Zustandsräume;
Bootstrapping löst das Problem des episodischen Lernens.

Funktionsweise

TD-Lernen funktioniert durch eine einfache Schleife:

Schätzung des Wertes: Der Agent beginnt mit einer anfänglichen Schätzung, wie gut der aktuelle Zustand ist;
Ausführen einer Aktion: Er führt eine Aktion aus, erhält eine Belohnung und gelangt in einen neuen Zustand;
Aktualisierung der Schätzung: Mithilfe der Belohnung und des Wertes des neuen Zustands passt der Agent seine ursprüngliche Schätzung leicht an, um sie genauer zu machen;
Wiederholen: Mit der Zeit baut der Agent durch das wiederholte Durchlaufen dieser Schleife nach und nach bessere und genauere Wertschätzungen für verschiedene Zustände auf.

Vergleichstabelle

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain what bootstrapping means in this context?

What are some real-world examples where TD learning is used?

How does TD learning combine the strengths of dynamic programming and Monte Carlo methods?

Swipe um das Menü anzuzeigen