Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer On-Policy Monte Carlo-controle | Monte Carlo-Methoden
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
On-Policy Monte Carlo-controle

Het idee achter on-policy methoden is intuïtief: een agent leert door zijn huidige beleid te volgen en verbetert dat beleid op basis van de uitkomsten die hij ervaart. Om betere acties te ontdekken en te voorkomen dat hij vastloopt in suboptimaal gedrag, verwerkt de agent een zekere mate van willekeur — af en toe probeert hij alternatieve acties om verkenning te stimuleren.

Analogie

Stel je voor dat je in een ijssalon bent en er zijn drie smaken beschikbaar: chocolade, vanille en aardbei. Je houdt van chocolade, dus dat kies je meestal. Maar op een dag besluit je uit nieuwsgierigheid om in plaats daarvan aardbei te proberen. Het blijkt dat het aardbeienijs in deze winkel ongelooflijk lekker is, en je besluit het voortaan te kiezen wanneer je deze winkel bezoekt.

Het proberen van een nieuwe smaak was niet per se de meest logische keuze op basis van eerdere ervaringen, maar het bood de mogelijkheid om iets nieuws te ontdekken. Dit soort verkenning vormt de kern van on-policy methoden.

Stochastische Beleidsregels

Formeel betekent het toepassen van dit idee het vervangen van de deterministische (harde) beleidsregels die in dynamisch programmeren worden gebruikt door stochastische (zachte) beleidsregels, aangeduid als π(as)\pi(a | s), waarbij:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Met andere woorden, elke actie in elke toestand heeft een niet-nul kans om geselecteerd te worden. Dit zorgt ervoor dat alle delen van de omgeving uiteindelijk verkend kunnen worden, wat essentieel is bij het leren uit ervaring.

ε\Large\varepsilon-gulzige beleidsvormen

Om exploratie in het beleid te verwerken, nemen we het concept van ε\varepsilon-gulzige exploratie over uit het multi-armed bandit probleem. Hiermee kunnen we een stochastisch beleid definiëren dat het benutten van de best bekende actie afwisselt met het verkennen van alternatieven:

π(as){1ε+εA(s)als a=arg maxaqπ(s,a)εA(s)anders\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{als } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{anders} \end{dcases}

Dit beleid gedraagt zich meestal gulzig — het kiest de actie met de hoogste geschatte waarde — maar met kans ε\varepsilon kiest het een willekeurige actie, zodat alle acties een niet-nul kans hebben om gekozen te worden (zelfs de gulzige actie opnieuw, via uniforme steekproeven).

Op het eerste gezicht lijkt deze aanpak problematisch: omdat het beleid nooit volledig gulzig wordt, zal het nooit exact naar het optimale beleid convergeren. Het voldoet dus niet strikt aan de voorwaarden voor GPI als we exacte optimaliteit in de limiet verwachten.

Echter, GPI vereist niet dat het beleid direct optimaal wordt — het vereist alleen dat elk beleid verbeterd (of gelijk blijft) ten opzichte van het vorige, en zo geleidelijk naar optimaliteit beweegt. Het ε\varepsilon-gulzige beleid voldoet aan deze voorwaarde: het verbetert het beleid gemiddeld genomen, en zorgt voor voortdurende exploratie om betere schattingen te ondersteunen.

Om het probleem van convergentie naar het werkelijk optimale beleid aan te pakken, kunnen we ε\varepsilon geleidelijk verminderen in de tijd. Deze strategie zorgt ervoor dat het beleid steeds gulziger wordt naarmate het leerproces vordert. In de beginfase helpt exploratie om diverse ervaringen te verzamelen, terwijl in latere fasen de agent zijn verbeterde kennis benut. Met een correct afnemende ε\varepsilon convergeert de methode in de limiet naar een optimaal beleid.

Pseudocode

question mark

Hoe kunnen stochastische beleidsvormen helpen bij exploratie?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
On-Policy Monte Carlo-controle

Het idee achter on-policy methoden is intuïtief: een agent leert door zijn huidige beleid te volgen en verbetert dat beleid op basis van de uitkomsten die hij ervaart. Om betere acties te ontdekken en te voorkomen dat hij vastloopt in suboptimaal gedrag, verwerkt de agent een zekere mate van willekeur — af en toe probeert hij alternatieve acties om verkenning te stimuleren.

Analogie

Stel je voor dat je in een ijssalon bent en er zijn drie smaken beschikbaar: chocolade, vanille en aardbei. Je houdt van chocolade, dus dat kies je meestal. Maar op een dag besluit je uit nieuwsgierigheid om in plaats daarvan aardbei te proberen. Het blijkt dat het aardbeienijs in deze winkel ongelooflijk lekker is, en je besluit het voortaan te kiezen wanneer je deze winkel bezoekt.

Het proberen van een nieuwe smaak was niet per se de meest logische keuze op basis van eerdere ervaringen, maar het bood de mogelijkheid om iets nieuws te ontdekken. Dit soort verkenning vormt de kern van on-policy methoden.

Stochastische Beleidsregels

Formeel betekent het toepassen van dit idee het vervangen van de deterministische (harde) beleidsregels die in dynamisch programmeren worden gebruikt door stochastische (zachte) beleidsregels, aangeduid als π(as)\pi(a | s), waarbij:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Met andere woorden, elke actie in elke toestand heeft een niet-nul kans om geselecteerd te worden. Dit zorgt ervoor dat alle delen van de omgeving uiteindelijk verkend kunnen worden, wat essentieel is bij het leren uit ervaring.

ε\Large\varepsilon-gulzige beleidsvormen

Om exploratie in het beleid te verwerken, nemen we het concept van ε\varepsilon-gulzige exploratie over uit het multi-armed bandit probleem. Hiermee kunnen we een stochastisch beleid definiëren dat het benutten van de best bekende actie afwisselt met het verkennen van alternatieven:

π(as){1ε+εA(s)als a=arg maxaqπ(s,a)εA(s)anders\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{als } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{anders} \end{dcases}

Dit beleid gedraagt zich meestal gulzig — het kiest de actie met de hoogste geschatte waarde — maar met kans ε\varepsilon kiest het een willekeurige actie, zodat alle acties een niet-nul kans hebben om gekozen te worden (zelfs de gulzige actie opnieuw, via uniforme steekproeven).

Op het eerste gezicht lijkt deze aanpak problematisch: omdat het beleid nooit volledig gulzig wordt, zal het nooit exact naar het optimale beleid convergeren. Het voldoet dus niet strikt aan de voorwaarden voor GPI als we exacte optimaliteit in de limiet verwachten.

Echter, GPI vereist niet dat het beleid direct optimaal wordt — het vereist alleen dat elk beleid verbeterd (of gelijk blijft) ten opzichte van het vorige, en zo geleidelijk naar optimaliteit beweegt. Het ε\varepsilon-gulzige beleid voldoet aan deze voorwaarde: het verbetert het beleid gemiddeld genomen, en zorgt voor voortdurende exploratie om betere schattingen te ondersteunen.

Om het probleem van convergentie naar het werkelijk optimale beleid aan te pakken, kunnen we ε\varepsilon geleidelijk verminderen in de tijd. Deze strategie zorgt ervoor dat het beleid steeds gulziger wordt naarmate het leerproces vordert. In de beginfase helpt exploratie om diverse ervaringen te verzamelen, terwijl in latere fasen de agent zijn verbeterde kennis benut. Met een correct afnemende ε\varepsilon convergeert de methode in de limiet naar een optimaal beleid.

Pseudocode

question mark

Hoe kunnen stochastische beleidsvormen helpen bij exploratie?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 5
some-alt