Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Markov-beslissingsproces | Kernprincipes van RL
Introductie tot Reinforcement Learning
course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Markov-beslissingsproces

Note
Definitie

Markov-beslissingsproces (MDP) is een wiskundig raamwerk dat wordt gebruikt om besluitvormingsproblemen te modelleren waarbij een agent in de loop van de tijd met een omgeving interageert.

Reinforcement learning-problemen worden vaak geformuleerd als MDP's, die een gestructureerde manier bieden om het probleem te definiëren. MDP's beschrijven de omgeving met behulp van vier kerncomponenten: toestanden, acties, transities en beloningen. Deze componenten werken samen onder de Markov-eigenschap, die garandeert dat de toekomstige toestand alleen afhangt van de huidige toestand en actie, en niet van eerdere toestanden.

De Vier Componenten

Toestand

Note
Definitie

Een toestand ss is een representatie van de omgeving op een specifiek moment in de tijd. De verzameling van alle mogelijke toestanden wordt de toestandsruimte SS genoemd.

Een toestand wordt doorgaans weergegeven door een set parameters die de relevante kenmerken van de omgeving vastleggen. Deze parameters kunnen verschillende aspecten omvatten, zoals positie, snelheid, rotatie, enzovoort.

Actie

Note
Definitie

Een actie aa is een beslissing of zet die door de agent wordt genomen om de omgeving te beïnvloeden. De verzameling van alle mogelijke acties wordt de actieruimte AA genoemd.

De verzameling van mogelijke acties hangt meestal af van de huidige toestand.

Transitie

Note
Definitie

Transitie beschrijft hoe de toestand van de omgeving verandert als reactie op de actie van de agent. De transitiefunctie pp specificeert de kans om van de ene toestand naar een andere te gaan, gegeven een specifieke actie.

In veel gevallen kunnen omgevingen zowel deterministisch als stochastisch zijn, wat betekent dat de transitie voorspelbaar kan zijn of een zekere mate van willekeur kan bevatten.

Beloning

Note
Definitie

Een beloning rr is een numerieke waarde die door de agent wordt ontvangen na het uitvoeren van een actie in een bepaalde toestand. De functie die transities koppelt aan verwachte beloningen wordt de beloningsfunctie RR genoemd.

Beloningen sturen de agent naar wenselijk gedrag en kunnen zowel positief als negatief zijn. Het ontwerpen van beloningen is complex, omdat de agent kan proberen de beloningen te exploiteren.

Markov-eigenschap

De Markov-eigenschap in een Markov-beslissingsproces stelt dat de volgende toestand en beloning alleen afhangen van de huidige toestand en actie, en niet van eerdere informatie. Dit zorgt voor een geheugenloos kader, wat het leerproces vereenvoudigt.

Wiskundig kan deze eigenschap worden beschreven met de volgende formule:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

waarbij:

  • StS_t een toestand is op tijdstip tt;
  • AtA_t een actie is uitgevoerd op tijdstip tt;
  • RtR_t een beloning is op tijdstip tt.
Note
Opmerking

Het geheugenloze karakter van een MDP betekent niet dat eerdere observaties worden genegeerd. De huidige toestand moet alle relevante historische informatie bevatten.

question mark

Stel je voor dat de agent een spel speelt. Welke van deze is een goede representatie van de toestand van een omgeving in een MDP?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

course content

Cursusinhoud

Introductie tot Reinforcement Learning

Introductie tot Reinforcement Learning

1. Kernprincipes van RL
2. Multi-Armed Bandit Probleem
3. Dynamisch Programmeren
4. Monte Carlo-Methoden
5. Temporale Verschil Leren

book
Markov-beslissingsproces

Note
Definitie

Markov-beslissingsproces (MDP) is een wiskundig raamwerk dat wordt gebruikt om besluitvormingsproblemen te modelleren waarbij een agent in de loop van de tijd met een omgeving interageert.

Reinforcement learning-problemen worden vaak geformuleerd als MDP's, die een gestructureerde manier bieden om het probleem te definiëren. MDP's beschrijven de omgeving met behulp van vier kerncomponenten: toestanden, acties, transities en beloningen. Deze componenten werken samen onder de Markov-eigenschap, die garandeert dat de toekomstige toestand alleen afhangt van de huidige toestand en actie, en niet van eerdere toestanden.

De Vier Componenten

Toestand

Note
Definitie

Een toestand ss is een representatie van de omgeving op een specifiek moment in de tijd. De verzameling van alle mogelijke toestanden wordt de toestandsruimte SS genoemd.

Een toestand wordt doorgaans weergegeven door een set parameters die de relevante kenmerken van de omgeving vastleggen. Deze parameters kunnen verschillende aspecten omvatten, zoals positie, snelheid, rotatie, enzovoort.

Actie

Note
Definitie

Een actie aa is een beslissing of zet die door de agent wordt genomen om de omgeving te beïnvloeden. De verzameling van alle mogelijke acties wordt de actieruimte AA genoemd.

De verzameling van mogelijke acties hangt meestal af van de huidige toestand.

Transitie

Note
Definitie

Transitie beschrijft hoe de toestand van de omgeving verandert als reactie op de actie van de agent. De transitiefunctie pp specificeert de kans om van de ene toestand naar een andere te gaan, gegeven een specifieke actie.

In veel gevallen kunnen omgevingen zowel deterministisch als stochastisch zijn, wat betekent dat de transitie voorspelbaar kan zijn of een zekere mate van willekeur kan bevatten.

Beloning

Note
Definitie

Een beloning rr is een numerieke waarde die door de agent wordt ontvangen na het uitvoeren van een actie in een bepaalde toestand. De functie die transities koppelt aan verwachte beloningen wordt de beloningsfunctie RR genoemd.

Beloningen sturen de agent naar wenselijk gedrag en kunnen zowel positief als negatief zijn. Het ontwerpen van beloningen is complex, omdat de agent kan proberen de beloningen te exploiteren.

Markov-eigenschap

De Markov-eigenschap in een Markov-beslissingsproces stelt dat de volgende toestand en beloning alleen afhangen van de huidige toestand en actie, en niet van eerdere informatie. Dit zorgt voor een geheugenloos kader, wat het leerproces vereenvoudigt.

Wiskundig kan deze eigenschap worden beschreven met de volgende formule:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

waarbij:

  • StS_t een toestand is op tijdstip tt;
  • AtA_t een actie is uitgevoerd op tijdstip tt;
  • RtR_t een beloning is op tijdstip tt.
Note
Opmerking

Het geheugenloze karakter van een MDP betekent niet dat eerdere observaties worden genegeerd. De huidige toestand moet alle relevante historische informatie bevatten.

question mark

Stel je voor dat de agent een spel speelt. Welke van deze is een goede representatie van de toestand van een omgeving in een MDP?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3
some-alt