Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Generalisatie van TD-Leren
Tot nu toe hebben we twee uiterste gevallen van leren uit ervaring besproken:
- TD(0): gebruikt de één-staps opbrengst;
- Monte Carlo: wacht tot het einde van de episode om de opbrengst te berekenen.
Maar wat als we iets daartussenin willen? Iets dat meer toekomstige informatie benut dan TD(0), maar niet hoeft te wachten tot het einde van de volledige episode zoals Monte Carlo?
Hier komen -staps TD-leren en TD() in beeld — methoden die de ideeën die we tot nu toe hebben gezien verenigen en generaliseren.
-staps TD-leren
Het idee achter -staps TD-leren is eenvoudig: in plaats van alleen de volgende stap of de gehele episode te gebruiken, gebruiken we de volgende stappen en passen vervolgens bootstrapping toe:
Dit maakt een afweging mogelijk:
- Wanneer : dan is het gewoon TD(0);
- Wanneer : dan wordt het Monte Carlo.
Deze opbrengsten kunnen vervolgens worden gebruikt om het doel in de TD(0)-update regel te vervangen:
TD()
TD() is een slimme benadering die voortbouwt op -staps TD-leren: in plaats van een vaste te kiezen, combineren we alle -staps opbrengsten samen:
waarbij de weging bepaalt:
- Als : alleen één-staps opbrengst TD(0);
- Als : volledige opbrengst Monte Carlo;
- Intermediaire waarden mengen meerdere stapsopbrengsten.
Dus fungeert als een bias-variantie-afwegingsknop:
- Lage : meer bias, minder variantie;
- Hoge : minder bias, meer variantie.
kan vervolgens worden gebruikt als update-doel in de TD(0) update-regel:
Bedankt voor je feedback!