Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Gegeneraliseerde Beleidsiteratie | Dynamisch Programmeren
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Gegeneraliseerde Beleidsiteratie

In eerdere hoofdstukken heb je geleerd over beleidsevaluatie en beleidsverbetering. Deze processen vullen elkaar aan en worden op natuurlijke wijze gecombineerd in een raamwerk dat bekend staat als gegeneraliseerde beleidsiteratie.

Note
Definitie

Gegeneraliseerde beleidsiteratie (GPI) is een raamwerk waarin beleidsevaluatie en beleidsverbetering iteratief met elkaar interageren met als gemeenschappelijk doel het bepalen van een optimaal beleid.

De meeste reinforcement learning-methoden kunnen worden beschreven binnen het raamwerk van GPI. De belangrijkste verschillen tussen deze methoden komen voort uit de specifieke implementaties van beleidsevaluatie en beleidsverbetering, evenals de aard van hun interacties.

Interactie tussen twee processen

Beleidswaardering en beleidsverbetering kunnen zowel als coöperatieve als competitieve processen worden beschouwd, afhankelijk van het perspectief:

  • Coöperatief: beide processen werken naar een gemeenschappelijk doel—het vinden van het optimale beleid en de waarde-functie. Beleidswaardering schat de waarde-functie voor een gegeven beleid, terwijl beleidsverbetering het beleid verfijnt op basis van deze schattingen;
  • Competitief: elk proces heeft tegenstrijdige doelstellingen. Beleidswaardering streeft ernaar om de waarde-functie voor het huidige beleid nauwkeurig te schatten, waardoor het beleid vaak niet langer hebzuchtig is. Omgekeerd past beleidsverbetering het beleid aan om hebzuchtig te zijn ten opzichte van de huidige waarde-functie schattingen, waardoor deze schattingen doorgaans onnauwkeurig worden. Deze voortdurende wisselwerking gaat door totdat zowel het beleid als de waarde-functie convergeren naar hun optimale vormen.

Samenvatting

Algemene beleidsiteratie is een nuttig kader om te begrijpen hoe verschillende reinforcement learning-methoden het oplossen van MDP's benaderen. In de komende hoofdstukken wordt onderzocht hoe deze ideeën kunnen worden toegepast om twee essentiële DP-methoden te creëren: beleidsiteratie en waarde-iteratie.

question mark

Selecteer de twee processen die samenwerken binnen het kader van algemene beleidsiteratie

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 6

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Gegeneraliseerde Beleidsiteratie

In eerdere hoofdstukken heb je geleerd over beleidsevaluatie en beleidsverbetering. Deze processen vullen elkaar aan en worden op natuurlijke wijze gecombineerd in een raamwerk dat bekend staat als gegeneraliseerde beleidsiteratie.

Note
Definitie

Gegeneraliseerde beleidsiteratie (GPI) is een raamwerk waarin beleidsevaluatie en beleidsverbetering iteratief met elkaar interageren met als gemeenschappelijk doel het bepalen van een optimaal beleid.

De meeste reinforcement learning-methoden kunnen worden beschreven binnen het raamwerk van GPI. De belangrijkste verschillen tussen deze methoden komen voort uit de specifieke implementaties van beleidsevaluatie en beleidsverbetering, evenals de aard van hun interacties.

Interactie tussen twee processen

Beleidswaardering en beleidsverbetering kunnen zowel als coöperatieve als competitieve processen worden beschouwd, afhankelijk van het perspectief:

  • Coöperatief: beide processen werken naar een gemeenschappelijk doel—het vinden van het optimale beleid en de waarde-functie. Beleidswaardering schat de waarde-functie voor een gegeven beleid, terwijl beleidsverbetering het beleid verfijnt op basis van deze schattingen;
  • Competitief: elk proces heeft tegenstrijdige doelstellingen. Beleidswaardering streeft ernaar om de waarde-functie voor het huidige beleid nauwkeurig te schatten, waardoor het beleid vaak niet langer hebzuchtig is. Omgekeerd past beleidsverbetering het beleid aan om hebzuchtig te zijn ten opzichte van de huidige waarde-functie schattingen, waardoor deze schattingen doorgaans onnauwkeurig worden. Deze voortdurende wisselwerking gaat door totdat zowel het beleid als de waarde-functie convergeren naar hun optimale vormen.

Samenvatting

Algemene beleidsiteratie is een nuttig kader om te begrijpen hoe verschillende reinforcement learning-methoden het oplossen van MDP's benaderen. In de komende hoofdstukken wordt onderzocht hoe deze ideeën kunnen worden toegepast om twee essentiële DP-methoden te creëren: beleidsiteratie en waarde-iteratie.

question mark

Selecteer de twee processen die samenwerken binnen het kader van algemene beleidsiteratie

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 6
some-alt