Leer Verkenningsbenaderingen | Monte Carlo-Methoden

De exploring starts-aanname is nuttig om te waarborgen dat alle toestanden (toestand-actieparen) na verloop van tijd worden bezocht. In de meeste praktische toepassingen heeft deze echter een belangrijk nadeel: er is een model vereist om de agent willekeurig in toestanden te initialiseren.

In zeldzame gevallen — wanneer de omgeving van nature episodes start vanuit willekeurige toestanden die de gehele toestandsruimte bestrijken — kan exploring starts zonder problemen worden toegepast. Vaker echter hebben taken een vaste of beperkte set van begintoestanden, waardoor dergelijke randomisatie onmogelijk is zonder een gedeeltelijk model. Dit model moet ten minste in staat zijn om één stap van de omgeving te simuleren vanuit elke toestand. Hoewel dit minder veeleisend is dan het vereisen van een volledig model, is het vaak onpraktisch.

Alternatieve verkenningsbenaderingen

Als starten vanuit een willekeurige toestand (toestand-actiepaar) geen optie is, is het alternatief om ervoor te zorgen dat elke actie een niet-nul kans heeft om in elke toestand geselecteerd te worden. Dit garandeert dat de agent na verloop van tijd alle bereikbare delen van de toestandsruimte zal verkennen. Als een toestand bereikt kan worden via een geldige reeks acties, zal dat uiteindelijk gebeuren; en als een toestand helemaal niet bereikt kan worden onder de dynamiek van de omgeving, is deze niet relevant voor het leerproces.

Dit idee leidt tot het gebruik van stochastische beleidsvormen, waarbij de agent niet altijd de best bekende actie kiest, maar in plaats daarvan acties selecteert met een zekere mate van willekeur. Een veelgebruikte strategie hiervoor is het bekende $\varepsilon$ -greedy beleid, waarbij meestal de hebzuchtige actie wordt gekozen, maar met kans $\varepsilon$ een willekeurige actie wordt geselecteerd. Dit zorgt voor voortdurende verkenning, terwijl toch de voorkeur wordt gegeven aan acties met hoge waarde.

Op dit punt is het ook nuttig om onderscheid te maken tussen twee hoofdklassen van methoden:

On-policy methoden evalueren en verbeteren hetzelfde beleid dat wordt gebruikt om de data te genereren;
Off-policy methoden evalueren en verbeteren één beleid, en genereren de data met een ander beleid.

1. Wat is het belangrijkste probleem met de veronderstelling van 'exploring starts'?

2. Wat is het verschil tussen on-policy en off-policy methoden in reinforcement learning?

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 4

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen