Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Markov-beslissingsproces
Markov-beslissingsproces (MDP) is een wiskundig raamwerk dat wordt gebruikt om besluitvormingsproblemen te modelleren waarbij een agent in de loop van de tijd met een omgeving interageert.
Reinforcement learning-problemen worden vaak geformuleerd als MDP's, die een gestructureerde manier bieden om het probleem te definiëren. MDP's beschrijven de omgeving met behulp van vier kerncomponenten: toestanden, acties, transities en beloningen. Deze componenten werken samen onder de Markov-eigenschap, die garandeert dat de toekomstige toestand alleen afhangt van de huidige toestand en actie, en niet van eerdere toestanden.
De Vier Componenten
Toestand
Een toestand is een representatie van de omgeving op een specifiek moment in de tijd. De verzameling van alle mogelijke toestanden wordt de toestandsruimte genoemd.
Een toestand wordt doorgaans weergegeven door een set parameters die de relevante kenmerken van de omgeving vastleggen. Deze parameters kunnen verschillende aspecten omvatten, zoals positie, snelheid, rotatie, enzovoort.
Actie
Een actie is een beslissing of zet die door de agent wordt genomen om de omgeving te beïnvloeden. De verzameling van alle mogelijke acties wordt de actieruimte genoemd.
De verzameling van mogelijke acties hangt meestal af van de huidige toestand.
Transitie
Transitie beschrijft hoe de toestand van de omgeving verandert als reactie op de actie van de agent. De transitiefunctie specificeert de kans om van de ene toestand naar een andere te gaan, gegeven een specifieke actie.
In veel gevallen kunnen omgevingen zowel deterministisch als stochastisch zijn, wat betekent dat de transitie voorspelbaar kan zijn of een zekere mate van willekeur kan bevatten.
Beloning
Een beloning is een numerieke waarde die door de agent wordt ontvangen na het uitvoeren van een actie in een bepaalde toestand. De functie die transities koppelt aan verwachte beloningen wordt de beloningsfunctie genoemd.
Beloningen sturen de agent naar wenselijk gedrag en kunnen zowel positief als negatief zijn. Het ontwerpen van beloningen is complex, omdat de agent kan proberen de beloningen te exploiteren.
Markov-eigenschap
De Markov-eigenschap in een Markov-beslissingsproces stelt dat de volgende toestand en beloning alleen afhangen van de huidige toestand en actie, en niet van eerdere informatie. Dit zorgt voor een geheugenloos kader, wat het leerproces vereenvoudigt.
Wiskundig kan deze eigenschap worden beschreven met de volgende formule:
waarbij:
- een toestand is op tijdstip ;
- een actie is uitgevoerd op tijdstip ;
- een beloning is op tijdstip .
Het geheugenloze karakter van een MDP betekent niet dat eerdere observaties worden genegeerd. De huidige toestand moet alle relevante historische informatie bevatten.
Bedankt voor je feedback!