Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Verkenningsbenaderingen
De exploring starts-aanname is nuttig om te waarborgen dat alle toestanden (toestand-actieparen) na verloop van tijd worden bezocht. In de meeste praktijksituaties heeft deze echter een belangrijk nadeel: er is een model vereist om de agent in willekeurige toestanden te initialiseren.
In zeldzame gevallen — wanneer de omgeving van nature episodes start vanuit willekeurige toestanden die de gehele toestandsruimte bestrijken — kan exploring starts zonder problemen worden toegepast. Vaker echter hebben taken een vaste of beperkte set van begintoestanden, waardoor dergelijke randomisatie onmogelijk is zonder een gedeeltelijk model. Dit model moet ten minste in staat zijn om één stap van de omgeving te simuleren vanuit elke toestand. Hoewel dit minder veeleisend is dan het vereisen van een volledig model, is het vaak niet praktisch.
Alternatieve verkenningsbenaderingen
Als starten vanuit een willekeurige toestand (toestand-actiepaar) geen optie is, is het alternatief om ervoor te zorgen dat elke actie een niet-nul kans heeft om in elke toestand geselecteerd te worden. Dit garandeert dat de agent na verloop van tijd alle bereikbare delen van de toestandsruimte zal verkennen. Als een toestand bereikt kan worden via een geldige reeks acties, zal dit uiteindelijk gebeuren; en als een toestand helemaal niet bereikt kan worden onder de dynamiek van de omgeving, is deze niet relevant voor het leerproces.
Dit idee leidt tot het gebruik van stochastische beleidsregels, waarbij de agent niet altijd de best bekende actie kiest, maar in plaats daarvan acties selecteert met een zekere mate van willekeur. Een veelgebruikte strategie hiervoor is het bekende -greedy beleid, dat meestal de hebzuchtige actie kiest, maar met kans een willekeurige actie selecteert. Dit zorgt voor voortdurende verkenning, terwijl toch de voorkeur wordt gegeven aan acties met hoge waarde.
Op dit punt is het ook nuttig om onderscheid te maken tussen twee hoofdklassen van methoden:
- On-policy methoden evalueren en verbeteren hetzelfde beleid dat wordt gebruikt om de data te genereren;
- Off-policy methoden evalueren en verbeteren het ene beleid, en genereren de data met het andere beleid.
1. Wat is het belangrijkste probleem met de veronderstelling van 'exploring starts'?
2. Wat is het verschil tussen on-policy en off-policy methoden in reinforcement learning?
Bedankt voor je feedback!