Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen TD(0): Schätzung der Wertfunktion | Temporal-Differenz-Lernen
Einführung in Reinforcement Learning

bookTD(0): Schätzung der Wertfunktion

Die einfachste Version des TD-Lernens wird als TD(0) bezeichnet. Sie aktualisiert den Wert eines Zustands basierend auf der unmittelbaren Belohnung und dem geschätzten Wert des nächsten Zustands. Es handelt sich um eine Ein-Schritt-TD-Methode.

Aktualisierungsregel

Gegeben sei ein Zustand StS_t, eine Belohnung Rt+1R_{t+1} und der nächste Zustand St+1S_{t+1}. Die Aktualisierungsregel lautet:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

wobei

  • α\alpha die Lernrate bzw. Schrittweite ist;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) der TD-Fehler ist.

Intuition

Die Zustandswertfunktion vπv_\pi kann wie folgt definiert und erweitert werden:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Dies ergibt den ersten Teil von δt\delta_t — die erfahrene Rückgabe Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Der zweite Teil von δt\delta_t ist die erwartete Rückgabe V(St)V(S_t). Der TD-Fehler δt\delta_t​ ist somit die beobachtbare Abweichung zwischen dem tatsächlich Geschehenen und unserer bisherigen Annahme. Die Aktualisierungsregel passt daher die bisherige Annahme bei jedem Schritt etwas an, sodass sie der Wahrheit näherkommt.

TD(0) vs Monte-Carlo-Schätzung

Sowohl TD(0) als auch die Monte-Carlo-Schätzung verwenden gesampelte Erfahrungen, um die Zustandswertfunktion vπ(s)v_\pi(s) für eine Politik π\pi zu schätzen. Unter den üblichen Konvergenzbedingungen konvergieren beide Methoden gegen das wahre vπ(s)v_\pi(s), wenn die Anzahl der Besuche jedes Zustands gegen unendlich geht. In der Praxis steht jedoch nur eine endliche Datenmenge zur Verfügung, und die beiden Methoden unterscheiden sich erheblich darin, wie sie diese Daten nutzen und wie schnell sie lernen.

Bias-Varianz-Abwägung

Aus der Perspektive des Bias-Varianz-Abwägung:

Monte-Carlo-Schätzung wartet bis zum Ende einer Episode und verwendet dann die vollständige Rückgabe, um Werte zu aktualisieren. Dies führt zu unverzerrten Schätzungen – die Rückgaben spiegeln tatsächlich die zugrunde liegende Verteilung wider – aber sie können stark schwanken, insbesondere bei langen oder hochgradig stochastischen Aufgaben. Hohe Varianz bedeutet, dass viele Episoden erforderlich sind, um das Rauschen auszugleichen und stabile Wertschätzungen zu erhalten.

TD(0) bootstrapped, indem jede Ein-Schritt-Belohnung mit der aktuellen Schätzung des Wertes des nächsten Zustands kombiniert wird. Dies führt zu Verzerrung – frühe Aktualisierungen basieren auf unvollkommenen Schätzungen – hält jedoch die Varianz niedrig, da jede Aktualisierung auf einem kleinen, inkrementellen Fehler basiert. Niedrigere Varianz ermöglicht es TD(0), Belohnungsinformationen schneller durch den Zustandsraum zu propagieren, auch wenn die anfängliche Verzerrung die Konvergenz verlangsamen kann.

Lerndaten vs Lernmodell

Eine weitere Möglichkeit, diese beiden Methoden zu betrachten, besteht darin, zu analysieren, was jede von ihnen tatsächlich lernt:

Monte-Carlo-Schätzung lernt direkt aus den beobachteten Rückgaben und passt ihre Wertschätzungen effektiv an die spezifischen Episoden an, die sie gesehen hat. Das bedeutet, dass sie den Fehler auf diesen Trainingsverläufen minimiert, aber da sie niemals eine explizite Sicht darauf aufbaut, wie Zustände ineinander übergehen, kann sie Schwierigkeiten haben, auf neue oder leicht unterschiedliche Situationen zu verallgemeinern.

TD(0) hingegen bootstrapped bei jedem Ein-Schritt-Übergang, indem die unmittelbare Belohnung mit der Schätzung des Wertes des nächsten Zustands kombiniert wird. Dadurch werden effektiv die Beziehungen zwischen Zuständen erfasst – ein implizites Modell der Dynamik der Umgebung. Dieses modellähnliche Verständnis ermöglicht es TD(0), besser auf ungesehene Übergänge zu verallgemeinern und führt häufig zu genaueren Wertschätzungen bei neuen Daten.

Pseudocode

question mark

Wie lässt sich TD(0) im Hinblick auf Verzerrung und Varianz beschreiben?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.7

bookTD(0): Schätzung der Wertfunktion

Swipe um das Menü anzuzeigen

Die einfachste Version des TD-Lernens wird als TD(0) bezeichnet. Sie aktualisiert den Wert eines Zustands basierend auf der unmittelbaren Belohnung und dem geschätzten Wert des nächsten Zustands. Es handelt sich um eine Ein-Schritt-TD-Methode.

Aktualisierungsregel

Gegeben sei ein Zustand StS_t, eine Belohnung Rt+1R_{t+1} und der nächste Zustand St+1S_{t+1}. Die Aktualisierungsregel lautet:

V(St)V(St)+α(Rt+1+γV(St+1)V(St))V(S_t) \gets V(S_t) + \alpha\Bigl(R_{t+1}+\gamma V(S_{t+1}) - V(S_t)\Bigr)

wobei

  • α\alpha die Lernrate bzw. Schrittweite ist;
  • δt=Rt+1+γV(St+1)V(St)\delta_t = R_{t+1}+\gamma V(S_{t+1}) - V(S_t) der TD-Fehler ist.

Intuition

Die Zustandswertfunktion vπv_\pi kann wie folgt definiert und erweitert werden:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]=Eπ[Rt+γvπ(St+1)St=s]\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s] \\ &= \E_\pi[R_t + \gamma G_{t+1} | S_t = s] \\ &= \E_\pi[R_t + \gamma v_\pi(S_{t+1}) | S_t = s] \end{aligned}

Dies ergibt den ersten Teil von δt\delta_t — die erfahrene Rückgabe Rt+1+γV(St+1)R_{t+1} + \gamma V(S_{t+1}). Der zweite Teil von δt\delta_t ist die erwartete Rückgabe V(St)V(S_t). Der TD-Fehler δt\delta_t​ ist somit die beobachtbare Abweichung zwischen dem tatsächlich Geschehenen und unserer bisherigen Annahme. Die Aktualisierungsregel passt daher die bisherige Annahme bei jedem Schritt etwas an, sodass sie der Wahrheit näherkommt.

TD(0) vs Monte-Carlo-Schätzung

Sowohl TD(0) als auch die Monte-Carlo-Schätzung verwenden gesampelte Erfahrungen, um die Zustandswertfunktion vπ(s)v_\pi(s) für eine Politik π\pi zu schätzen. Unter den üblichen Konvergenzbedingungen konvergieren beide Methoden gegen das wahre vπ(s)v_\pi(s), wenn die Anzahl der Besuche jedes Zustands gegen unendlich geht. In der Praxis steht jedoch nur eine endliche Datenmenge zur Verfügung, und die beiden Methoden unterscheiden sich erheblich darin, wie sie diese Daten nutzen und wie schnell sie lernen.

Bias-Varianz-Abwägung

Aus der Perspektive des Bias-Varianz-Abwägung:

Monte-Carlo-Schätzung wartet bis zum Ende einer Episode und verwendet dann die vollständige Rückgabe, um Werte zu aktualisieren. Dies führt zu unverzerrten Schätzungen – die Rückgaben spiegeln tatsächlich die zugrunde liegende Verteilung wider – aber sie können stark schwanken, insbesondere bei langen oder hochgradig stochastischen Aufgaben. Hohe Varianz bedeutet, dass viele Episoden erforderlich sind, um das Rauschen auszugleichen und stabile Wertschätzungen zu erhalten.

TD(0) bootstrapped, indem jede Ein-Schritt-Belohnung mit der aktuellen Schätzung des Wertes des nächsten Zustands kombiniert wird. Dies führt zu Verzerrung – frühe Aktualisierungen basieren auf unvollkommenen Schätzungen – hält jedoch die Varianz niedrig, da jede Aktualisierung auf einem kleinen, inkrementellen Fehler basiert. Niedrigere Varianz ermöglicht es TD(0), Belohnungsinformationen schneller durch den Zustandsraum zu propagieren, auch wenn die anfängliche Verzerrung die Konvergenz verlangsamen kann.

Lerndaten vs Lernmodell

Eine weitere Möglichkeit, diese beiden Methoden zu betrachten, besteht darin, zu analysieren, was jede von ihnen tatsächlich lernt:

Monte-Carlo-Schätzung lernt direkt aus den beobachteten Rückgaben und passt ihre Wertschätzungen effektiv an die spezifischen Episoden an, die sie gesehen hat. Das bedeutet, dass sie den Fehler auf diesen Trainingsverläufen minimiert, aber da sie niemals eine explizite Sicht darauf aufbaut, wie Zustände ineinander übergehen, kann sie Schwierigkeiten haben, auf neue oder leicht unterschiedliche Situationen zu verallgemeinern.

TD(0) hingegen bootstrapped bei jedem Ein-Schritt-Übergang, indem die unmittelbare Belohnung mit der Schätzung des Wertes des nächsten Zustands kombiniert wird. Dadurch werden effektiv die Beziehungen zwischen Zuständen erfasst – ein implizites Modell der Dynamik der Umgebung. Dieses modellähnliche Verständnis ermöglicht es TD(0), besser auf ungesehene Übergänge zu verallgemeinern und führt häufig zu genaueren Wertschätzungen bei neuen Daten.

Pseudocode

question mark

Wie lässt sich TD(0) im Hinblick auf Verzerrung und Varianz beschreiben?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 2
some-alt