Kursinhalt
Einführung in das Reinforcement Learning
Einführung in das Reinforcement Learning
TD(0): Schätzung der Wertfunktion
Die einfachste Version des TD-Lernens wird als TD(0) bezeichnet. Sie aktualisiert den Wert eines Zustands basierend auf der unmittelbaren Belohnung und dem geschätzten Wert des nächsten Zustands. Es handelt sich um eine Ein-Schritt-TD-Methode.
Aktualisierungsregel
Gegeben sei ein Zustand , eine Belohnung und der nächste Zustand . Die Aktualisierungsregel lautet:
wobei
- die Lernrate bzw. Schrittweite ist;
- der TD-Fehler ist.
Intuition
Die Zustandswertfunktion kann wie folgt definiert und erweitert werden:
Dies ergibt den ersten Teil von — die erfahrene Belohnung . Der zweite Teil von ist die erwartete Belohnung . Der TD-Fehler ist somit die beobachtbare Abweichung zwischen dem tatsächlich Erlebten und unserer bisherigen Annahme. Die Aktualisierungsregel passt daher die bisherige Annahme bei jedem Schritt etwas an, sodass sie der Wahrheit näherkommt.
TD(0) vs Monte-Carlo-Schätzung
Sowohl TD(0) als auch die Monte-Carlo-Schätzung verwenden gesampelte Erfahrungen, um die Zustandswertfunktion für eine Politik zu schätzen. Unter den üblichen Konvergenzbedingungen konvergieren beide Methoden gegen das wahre , wenn die Anzahl der Besuche jedes Zustands gegen unendlich geht. In der Praxis steht jedoch nur eine endliche Datenmenge zur Verfügung, und die beiden Methoden unterscheiden sich erheblich darin, wie sie diese Daten nutzen und wie schnell sie lernen.
Bias-Varianz-Abwägung
Aus der Perspektive des Bias-Varianz-Abwägung:
Monte-Carlo-Schätzung wartet bis zum Ende einer Episode und verwendet dann die gesamte Rückgabe, um Werte zu aktualisieren. Dies liefert unverzerrte Schätzungen – die Rückgaben spiegeln tatsächlich die zugrunde liegende Verteilung wider – aber sie können stark schwanken, insbesondere bei langen oder hochgradig stochastischen Aufgaben. Hohe Varianz bedeutet, dass viele Episoden erforderlich sind, um das Rauschen auszugleichen und stabile Wertschätzungen zu erhalten.
TD(0) verwendet Bootstrapping, indem jede Ein-Schritt-Belohnung mit der aktuellen Schätzung des Werts des nächsten Zustands kombiniert wird. Dies führt zu Bias – frühe Aktualisierungen basieren auf unvollkommenen Schätzungen – hält jedoch die Varianz niedrig, da jede Aktualisierung auf einem kleinen, inkrementellen Fehler basiert. Niedrigere Varianz ermöglicht es TD(0), Belohnungsinformationen schneller durch den Zustandsraum zu propagieren, auch wenn anfänglicher Bias die Konvergenz verlangsamen kann.
Lerndaten vs Lernmodell
Eine weitere Möglichkeit, diese beiden Methoden zu betrachten, besteht darin, zu analysieren, was jede von ihnen tatsächlich lernt:
Monte-Carlo-Schätzung lernt direkt aus den beobachteten Rückgaben und passt ihre Wertschätzungen effektiv an die spezifischen Episoden an, die sie gesehen hat. Das bedeutet, dass sie den Fehler auf diesen Trainingsverläufen minimiert, aber da sie niemals eine explizite Sicht darauf aufbaut, wie Zustände miteinander verbunden sind, kann sie Schwierigkeiten haben, auf neue oder leicht abweichende Situationen zu verallgemeinern.
TD(0) hingegen verwendet Bootstrapping bei jedem Ein-Schritt-Übergang, indem die unmittelbare Belohnung mit der Schätzung des nächsten Zustandswerts kombiniert wird. Dadurch erfasst es effektiv die Beziehungen zwischen Zuständen – ein implizites Modell der Umgebungsdynamik. Dieses modellähnliche Verständnis ermöglicht es TD(0), besser auf ungesehene Übergänge zu verallgemeinern und oft genauere Wertschätzungen für neue Daten zu liefern.
Pseudocode
Danke für Ihr Feedback!