Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
Was ist Zeitdifferenzielles Lernen?
Sowohl dynamische Programmierung als auch Monte-Carlo-Methoden bieten überzeugende Ansätze, weisen jedoch erhebliche Nachteile auf.
Dynamische Programmierung
Die dynamische Programmierung ermöglicht eine effiziente Berechnung der Zustandswertfunktion und die Ableitung einer optimalen Strategie daraus. Sie verwendet Bootstrapping – die Berechnung des aktuellen Zustandswerts auf Basis der Werte zukünftiger Zustände – um dieses Ziel zu erreichen.
Obwohl das Konzept des Bootstrappings sehr wirkungsvoll ist, weist die dynamische Programmierung zwei wesentliche Nachteile auf:
- Sie erfordert ein vollständiges und explizites Modell der Umgebung;
- Zustandswerte werden für jeden Zustand berechnet, selbst wenn sich der Zustand weit entfernt vom optimalen Pfad befindet.
Monte-Carlo-Methoden
Monte-Carlo-Methoden beheben die beiden Nachteile der dynamischen Programmierung:
- Kein Modell erforderlich, da das Lernen aus Erfahrung erfolgt;
- Die Lernweise aus Erfahrung begrenzt die Exploration, sodass unwichtige Zustände selten besucht werden.
Allerdings entsteht ein neuer Nachteil – der Lernprozess findet erst nach Abschluss der Episode statt. Dies beschränkt die Anwendbarkeit von Monte-Carlo-Methoden auf kleine episodische Aufgaben, da größere Aufgaben eine extrem hohe Anzahl von Aktionen erfordern würden, bis die Episode abgeschlossen ist.
Temporal-Difference-Lernen
Temporal Difference (TD) Learning ist das Ergebnis der Kombination von Konzepten aus der dynamischen Programmierung und den Monte-Carlo-Methoden. Es übernimmt den Ansatz des Lernens aus Erfahrung von den Monte-Carlo-Methoden und kombiniert diesen mit dem Bootstrapping aus der dynamischen Programmierung.
Als Ergebnis behebt das TD-Lernen die Hauptprobleme beider Methoden:
- Lernen aus Erfahrung löst das Problem der Modellabhängigkeit und das Problem großer Zustandsräume;
- Bootstrapping löst das Problem des episodischen Lernens.
Funktionsweise?
TD-Lernen funktioniert durch eine einfache Schleife:
- Schätzung des Werts: Der Agent beginnt mit einer anfänglichen Schätzung, wie gut der aktuelle Zustand ist;
- Ausführen einer Aktion: Er führt eine Aktion aus, erhält eine Belohnung und gelangt in einen neuen Zustand;
- Aktualisierung der Schätzung: Mithilfe der Belohnung und des Werts des neuen Zustands passt der Agent seine ursprüngliche Schätzung leicht an, um sie genauer zu machen;
- Wiederholen: Mit der Zeit baut der Agent durch das wiederholte Durchlaufen dieser Schleife nach und nach bessere und genauere Wertschätzungen für verschiedene Zustände auf.
Vergleichstabelle
Danke für Ihr Feedback!