Generalisatie van TD-Leren
Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:
- TD(0): gebruikt de één-staps opbrengst;
- Monte Carlo: wacht tot het einde van de episode om de opbrengst te berekenen.
Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?
Hier komen n-staps TD-leren en TD(λ) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.
n-staps TD-leren
Het idee achter n-staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende n stappen en passen vervolgens bootstrapping toe:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dit maakt een afweging mogelijk:
- Wanneer n=1: dan is het gewoon TD(0);
- Wanneer n=∞: dan wordt het Monte Carlo.
Deze opbrengsten kunnen vervolgens worden gebruikt om het doel in de TD(0)-update regel te vervangen:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) is een slimme benadering die voortbouwt op n-staps TD-leren: in plaats van een vaste n te kiezen, combineren we alle n-staps opbrengsten samen:
Lt=(1−λ)n=0∑∞λn−1Gt(n)waarbij λ∈[0,1] de weging bepaalt:
- Als λ=0: alleen één-staps opbrengst → TD(0);
- Als λ=1: volledige opbrengst → Monte Carlo;
- Intermediaire waarden mengen meerdere stapsopbrengsten.
Dus λ fungeert als een bias-variantie-afwegingsknop:
- Lage λ: meer bias, minder variantie;
- Hoge λ: minder bias, meer variantie.
Lt kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:
V(St)←V(St)+α(Lt−V(St))Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Generalisatie van TD-Leren
Veeg om het menu te tonen
Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:
- TD(0): gebruikt de één-staps opbrengst;
- Monte Carlo: wacht tot het einde van de episode om de opbrengst te berekenen.
Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?
Hier komen n-staps TD-leren en TD(λ) in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.
n-staps TD-leren
Het idee achter n-staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende n stappen en passen vervolgens bootstrapping toe:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Dit maakt een afweging mogelijk:
- Wanneer n=1: dan is het gewoon TD(0);
- Wanneer n=∞: dan wordt het Monte Carlo.
Deze opbrengsten kunnen vervolgens worden gebruikt om het doel in de TD(0)-update regel te vervangen:
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) is een slimme benadering die voortbouwt op n-staps TD-leren: in plaats van een vaste n te kiezen, combineren we alle n-staps opbrengsten samen:
Lt=(1−λ)n=0∑∞λn−1Gt(n)waarbij λ∈[0,1] de weging bepaalt:
- Als λ=0: alleen één-staps opbrengst → TD(0);
- Als λ=1: volledige opbrengst → Monte Carlo;
- Intermediaire waarden mengen meerdere stapsopbrengsten.
Dus λ fungeert als een bias-variantie-afwegingsknop:
- Lage λ: meer bias, minder variantie;
- Hoge λ: minder bias, meer variantie.
Lt kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:
V(St)←V(St)+α(Lt−V(St))Bedankt voor je feedback!