Generalisatie van TD-Leren
Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:
- TD(0): gebruikt de eenstaps-terugkeer;
- Monte Carlo: wacht tot het einde van de episode om de terugkeer te berekenen.
Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?
Hier komen n-staps TD-leren en TD(λ) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.
n-Staps TD-Leren
Het idee achter n-staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende n stappen en passen vervolgens bootstrapping toe:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dit maakt een afweging mogelijk:
- Wanneer n=1: dan is het gewoon TD(0);
- Wanneer n=∞: dan wordt het Monte Carlo.
Deze terugkeerwaarden kunnen vervolgens worden gebruikt om een doel te vervangen in de TD(0)-update regel:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) is een slimme benadering die voortbouwt op het n-staps TD-leren: in plaats van een vaste n te kiezen, combineren we alle n-staps opbrengsten samen:
Lt=(1−λ)n=0∑∞λn−1Gt(n)waarbij λ∈[0,1] de weging bepaalt:
- Als λ=0: alleen één-staps opbrengst → TD(0);
- Als λ=1: volledige opbrengst → Monte Carlo;
- Intermediaire waarden mengen meerdere stapsopbrengsten.
Dus λ fungeert als een bias-variantie-afwegingsknop:
- Lage λ: meer bias, minder variantie;
- Hoge λ: minder bias, meer variantie.
Lt kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:
V(St)←V(St)+α(Lt−V(St))Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Generalisatie van TD-Leren
Veeg om het menu te tonen
Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:
- TD(0): gebruikt de eenstaps-terugkeer;
- Monte Carlo: wacht tot het einde van de episode om de terugkeer te berekenen.
Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?
Hier komen n-staps TD-leren en TD(λ) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.
n-Staps TD-Leren
Het idee achter n-staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende n stappen en passen vervolgens bootstrapping toe:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dit maakt een afweging mogelijk:
- Wanneer n=1: dan is het gewoon TD(0);
- Wanneer n=∞: dan wordt het Monte Carlo.
Deze terugkeerwaarden kunnen vervolgens worden gebruikt om een doel te vervangen in de TD(0)-update regel:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) is een slimme benadering die voortbouwt op het n-staps TD-leren: in plaats van een vaste n te kiezen, combineren we alle n-staps opbrengsten samen:
Lt=(1−λ)n=0∑∞λn−1Gt(n)waarbij λ∈[0,1] de weging bepaalt:
- Als λ=0: alleen één-staps opbrengst → TD(0);
- Als λ=1: volledige opbrengst → Monte Carlo;
- Intermediaire waarden mengen meerdere stapsopbrengsten.
Dus λ fungeert als een bias-variantie-afwegingsknop:
- Lage λ: meer bias, minder variantie;
- Hoge λ: minder bias, meer variantie.
Lt kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:
V(St)←V(St)+α(Lt−V(St))Bedankt voor je feedback!