Lernen Verallgemeinerung des TD-Lernens

Bisher haben wir zwei Extremfälle des Lernens aus Erfahrung betrachtet:

TD(0): verwendet die Ein-Schritt-Rendite;
Monte Carlo: wartet bis zum Ende der Episode, um die Rendite zu berechnen.

Aber was, wenn wir etwas dazwischen wollen? Etwas, das mehr zukünftige Informationen nutzt als TD(0), aber nicht wie Monte Carlo auf die gesamte Episode warten muss?

Hier kommen das $n$ -Schritt-TD-Lernen und TD( $\lambda$ ) ins Spiel — Methoden, die die bisher gesehenen Ansätze vereinheitlichen und verallgemeinern.

$\Large n$ -Schritt-TD-Lernen

Die Idee hinter dem $n$ -Schritt-TD-Lernen ist einfach: Anstatt nur den nächsten Schritt oder die gesamte Episode zu verwenden, nutzen wir die nächsten $n$ Schritte und wenden dann Bootstrapping an:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dies ermöglicht einen Kompromiss:

Für $n = 1$ : entspricht es TD(0);
Für $n = \infty$ : entspricht es Monte Carlo.

Diese Rückgaben können dann verwendet werden, um das Ziel in der TD(0)-Aktualisierungsregel zu ersetzen:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) ist ein ausgeklügeltes Konzept, das auf dem $n$ -Schritt-TD-Lernen aufbaut: Anstatt ein festes $n$ zu wählen, werden alle $n$ -Schritt-Rückgaben kombiniert:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

wobei $\lambda \in [0, 1]$ die Gewichtung steuert:

Wenn $\lambda = 0$ : nur Ein-Schritt-Rückgabe $\to$ TD(0);
Wenn $\lambda = 1$ : vollständige Rückgabe $\to$ Monte-Carlo;
Zwischenwerte mischen mehrere Schritt-Rückgaben.

Somit fungiert $\lambda$ als Regler für den Bias-Varianz-Kompromiss:

Niedriges $\lambda$ : mehr Bias, weniger Varianz;
Hohes $\lambda$ : weniger Bias, mehr Varianz.

$L_t$ kann dann als Aktualisierungsziel in der TD(0)-Aktualisierungsregel verwendet werden:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 5

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen

Bisher haben wir zwei Extremfälle des Lernens aus Erfahrung betrachtet:

TD(0): verwendet die Ein-Schritt-Rendite;
Monte Carlo: wartet bis zum Ende der Episode, um die Rendite zu berechnen.

Aber was, wenn wir etwas dazwischen wollen? Etwas, das mehr zukünftige Informationen nutzt als TD(0), aber nicht wie Monte Carlo auf die gesamte Episode warten muss?

Hier kommen das $n$ -Schritt-TD-Lernen und TD( $\lambda$ ) ins Spiel — Methoden, die die bisher gesehenen Ansätze vereinheitlichen und verallgemeinern.

$\Large n$ -Schritt-TD-Lernen

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Dies ermöglicht einen Kompromiss:

Für $n = 1$ : entspricht es TD(0);
Für $n = \infty$ : entspricht es Monte Carlo.

Diese Rückgaben können dann verwendet werden, um das Ziel in der TD(0)-Aktualisierungsregel zu ersetzen:

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) ist ein ausgeklügeltes Konzept, das auf dem $n$ -Schritt-TD-Lernen aufbaut: Anstatt ein festes $n$ zu wählen, werden alle $n$ -Schritt-Rückgaben kombiniert:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

wobei $\lambda \in [0, 1]$ die Gewichtung steuert:

Wenn $\lambda = 0$ : nur Ein-Schritt-Rückgabe $\to$ TD(0);
Wenn $\lambda = 1$ : vollständige Rückgabe $\to$ Monte-Carlo;
Zwischenwerte mischen mehrere Schritt-Rückgaben.

Somit fungiert $\lambda$ als Regler für den Bias-Varianz-Kompromiss:

Niedriges $\lambda$ : mehr Bias, weniger Varianz;
Hohes $\lambda$ : weniger Bias, mehr Varianz.

$L_t$ kann dann als Aktualisierungsziel in der TD(0)-Aktualisierungsregel verwendet werden:

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

War alles klar?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 5

Verallgemeinerung des TD-Lernens

n\Large nn-Schritt-TD-Lernen

TD(λ\Large\lambdaλ)

Verallgemeinerung des TD-Lernens

n\Large nn-Schritt-TD-Lernen

TD(λ\Large\lambdaλ)

$\Large n$ -Schritt-TD-Lernen

TD( $\Large\lambda$ )

$\Large n$ -Schritt-TD-Lernen

TD( $\Large\lambda$ )