Verallgemeinerung des TD-Lernens
Bisher wurden zwei Extremfälle des Lernens aus Erfahrung betrachtet:
- TD(0): verwendet die Ein-Schritt-Rendite;
- Monte Carlo: wartet bis zum Ende der Episode, um die Rendite zu berechnen.
Aber was ist, wenn ein Ansatz zwischen diesen Extremen gewünscht ist? Einer, der mehr zukünftige Informationen als TD(0) nutzt, aber nicht wie Monte Carlo auf das Ende der gesamten Episode warten muss?
Hier kommen das n-Schritt-TD-Lernen und TD(λ) ins Spiel — Methoden, die die bisher behandelten Ideen vereinheitlichen und verallgemeinern.
n-Schritt-TD-Lernen
Die Grundidee des n-Schritt-TD-Lernens ist einfach: Anstatt nur den nächsten Schritt oder die gesamte Episode zu verwenden, werden die nächsten n Schritte genutzt und anschließend gebootstrapped:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dies ermöglicht einen Kompromiss:
- Für n=1: entspricht es TD(0);
- Für n=∞: entspricht es Monte Carlo.
Diese Renditen können dann als Ziel im TD(0)-Update-Regel ersetzt werden:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) ist ein ausgeklügeltes Konzept, das auf dem n-Schritt-TD-Lernen aufbaut: Anstatt ein festes n zu wählen, werden alle n-Schritt-Renditen kombiniert:
Lt=(1−λ)n=0∑∞λn−1Gt(n)wobei λ∈[0,1] die Gewichtung steuert:
- Wenn λ=0: nur Ein-Schritt-Rendite → TD(0);
- Wenn λ=1: vollständige Rendite → Monte-Carlo;
- Zwischenwerte mischen mehrere Schritt-Renditen.
Somit fungiert λ als Regler für den Bias-Varianz-Kompromiss:
- Niedriges λ: mehr Bias, weniger Varianz;
- Hohes λ: weniger Bias, mehr Varianz.
Lt kann dann als Aktualisierungsziel in der TD(0)-Aktualisierungsregel verwendet werden:
V(St)←V(St)+α(Lt−V(St))Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.7
Verallgemeinerung des TD-Lernens
Swipe um das Menü anzuzeigen
Bisher wurden zwei Extremfälle des Lernens aus Erfahrung betrachtet:
- TD(0): verwendet die Ein-Schritt-Rendite;
- Monte Carlo: wartet bis zum Ende der Episode, um die Rendite zu berechnen.
Aber was ist, wenn ein Ansatz zwischen diesen Extremen gewünscht ist? Einer, der mehr zukünftige Informationen als TD(0) nutzt, aber nicht wie Monte Carlo auf das Ende der gesamten Episode warten muss?
Hier kommen das n-Schritt-TD-Lernen und TD(λ) ins Spiel — Methoden, die die bisher behandelten Ideen vereinheitlichen und verallgemeinern.
n-Schritt-TD-Lernen
Die Grundidee des n-Schritt-TD-Lernens ist einfach: Anstatt nur den nächsten Schritt oder die gesamte Episode zu verwenden, werden die nächsten n Schritte genutzt und anschließend gebootstrapped:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dies ermöglicht einen Kompromiss:
- Für n=1: entspricht es TD(0);
- Für n=∞: entspricht es Monte Carlo.
Diese Renditen können dann als Ziel im TD(0)-Update-Regel ersetzt werden:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) ist ein ausgeklügeltes Konzept, das auf dem n-Schritt-TD-Lernen aufbaut: Anstatt ein festes n zu wählen, werden alle n-Schritt-Renditen kombiniert:
Lt=(1−λ)n=0∑∞λn−1Gt(n)wobei λ∈[0,1] die Gewichtung steuert:
- Wenn λ=0: nur Ein-Schritt-Rendite → TD(0);
- Wenn λ=1: vollständige Rendite → Monte-Carlo;
- Zwischenwerte mischen mehrere Schritt-Renditen.
Somit fungiert λ als Regler für den Bias-Varianz-Kompromiss:
- Niedriges λ: mehr Bias, weniger Varianz;
- Hohes λ: weniger Bias, mehr Varianz.
Lt kann dann als Aktualisierungsziel in der TD(0)-Aktualisierungsregel verwendet werden:
V(St)←V(St)+α(Lt−V(St))Danke für Ihr Feedback!