Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Verkenningsbenaderingen | Monte Carlo-Methoden
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Verkenningsbenaderingen

De exploring starts-aanname is nuttig om te waarborgen dat alle toestanden (toestand-actieparen) na verloop van tijd worden bezocht. In de meeste praktijksituaties heeft deze echter een belangrijk nadeel: er is een model vereist om de agent in willekeurige toestanden te initialiseren.

In zeldzame gevallen — wanneer de omgeving van nature episodes start vanuit willekeurige toestanden die de gehele toestandsruimte bestrijken — kan exploring starts zonder problemen worden toegepast. Vaker echter hebben taken een vaste of beperkte set van begintoestanden, waardoor dergelijke randomisatie onmogelijk is zonder een gedeeltelijk model. Dit model moet ten minste in staat zijn om één stap van de omgeving te simuleren vanuit elke toestand. Hoewel dit minder veeleisend is dan het vereisen van een volledig model, is het vaak niet praktisch.

Alternatieve verkenningsbenaderingen

Als starten vanuit een willekeurige toestand (toestand-actiepaar) geen optie is, is het alternatief om ervoor te zorgen dat elke actie een niet-nul kans heeft om in elke toestand geselecteerd te worden. Dit garandeert dat de agent na verloop van tijd alle bereikbare delen van de toestandsruimte zal verkennen. Als een toestand bereikt kan worden via een geldige reeks acties, zal dit uiteindelijk gebeuren; en als een toestand helemaal niet bereikt kan worden onder de dynamiek van de omgeving, is deze niet relevant voor het leerproces.

Dit idee leidt tot het gebruik van stochastische beleidsregels, waarbij de agent niet altijd de best bekende actie kiest, maar in plaats daarvan acties selecteert met een zekere mate van willekeur. Een veelgebruikte strategie hiervoor is het bekende ε\varepsilon-greedy beleid, dat meestal de hebzuchtige actie kiest, maar met kans ε\varepsilon een willekeurige actie selecteert. Dit zorgt voor voortdurende verkenning, terwijl toch de voorkeur wordt gegeven aan acties met hoge waarde.

Op dit punt is het ook nuttig om onderscheid te maken tussen twee hoofdklassen van methoden:

  • On-policy methoden evalueren en verbeteren hetzelfde beleid dat wordt gebruikt om de data te genereren;
  • Off-policy methoden evalueren en verbeteren het ene beleid, en genereren de data met het andere beleid.

1. Wat is het belangrijkste probleem met de veronderstelling van 'exploring starts'?

2. Wat is het verschil tussen on-policy en off-policy methoden in reinforcement learning?

question mark

Wat is het belangrijkste probleem met de veronderstelling van 'exploring starts'?

Select the correct answer

question mark

Wat is het verschil tussen on-policy en off-policy methoden in reinforcement learning?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 4

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Verkenningsbenaderingen

De exploring starts-aanname is nuttig om te waarborgen dat alle toestanden (toestand-actieparen) na verloop van tijd worden bezocht. In de meeste praktijksituaties heeft deze echter een belangrijk nadeel: er is een model vereist om de agent in willekeurige toestanden te initialiseren.

In zeldzame gevallen — wanneer de omgeving van nature episodes start vanuit willekeurige toestanden die de gehele toestandsruimte bestrijken — kan exploring starts zonder problemen worden toegepast. Vaker echter hebben taken een vaste of beperkte set van begintoestanden, waardoor dergelijke randomisatie onmogelijk is zonder een gedeeltelijk model. Dit model moet ten minste in staat zijn om één stap van de omgeving te simuleren vanuit elke toestand. Hoewel dit minder veeleisend is dan het vereisen van een volledig model, is het vaak niet praktisch.

Alternatieve verkenningsbenaderingen

Als starten vanuit een willekeurige toestand (toestand-actiepaar) geen optie is, is het alternatief om ervoor te zorgen dat elke actie een niet-nul kans heeft om in elke toestand geselecteerd te worden. Dit garandeert dat de agent na verloop van tijd alle bereikbare delen van de toestandsruimte zal verkennen. Als een toestand bereikt kan worden via een geldige reeks acties, zal dit uiteindelijk gebeuren; en als een toestand helemaal niet bereikt kan worden onder de dynamiek van de omgeving, is deze niet relevant voor het leerproces.

Dit idee leidt tot het gebruik van stochastische beleidsregels, waarbij de agent niet altijd de best bekende actie kiest, maar in plaats daarvan acties selecteert met een zekere mate van willekeur. Een veelgebruikte strategie hiervoor is het bekende ε\varepsilon-greedy beleid, dat meestal de hebzuchtige actie kiest, maar met kans ε\varepsilon een willekeurige actie selecteert. Dit zorgt voor voortdurende verkenning, terwijl toch de voorkeur wordt gegeven aan acties met hoge waarde.

Op dit punt is het ook nuttig om onderscheid te maken tussen twee hoofdklassen van methoden:

  • On-policy methoden evalueren en verbeteren hetzelfde beleid dat wordt gebruikt om de data te genereren;
  • Off-policy methoden evalueren en verbeteren het ene beleid, en genereren de data met het andere beleid.

1. Wat is het belangrijkste probleem met de veronderstelling van 'exploring starts'?

2. Wat is het verschil tussen on-policy en off-policy methoden in reinforcement learning?

question mark

Wat is het belangrijkste probleem met de veronderstelling van 'exploring starts'?

Select the correct answer

question mark

Wat is het verschil tussen on-policy en off-policy methoden in reinforcement learning?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 4
some-alt