Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Model, Beleid en Waarden
Model
Een model is een representatie van de omgeving die de overgangswaarschijnlijkheden tussen toestanden en de verwachte beloningen voor genomen acties definieert.
Versterkend leren-algoritmen kunnen worden onderverdeeld in twee categorieën:
- Model-based: bij deze benadering leert de agent of heeft de agent toegang tot een model van de omgeving, waardoor het toekomstige toestanden en beloningen kan simuleren voordat acties worden ondernomen. Dit stelt de agent in staat om te plannen en beter onderbouwde beslissingen te nemen;
- Model-free: bij deze benadering beschikt de agent niet over een direct model van de omgeving. Het leert uitsluitend door interactie met de omgeving, waarbij het door middel van trial-and-error de beste acties ontdekt.
In de praktijk zijn omgevingen met expliciete modellen zeldzaam, waardoor het voor agents moeilijk is om op modelgebaseerde strategieën te vertrouwen. Hierdoor zijn modelvrije benaderingen gangbaarder geworden en uitgebreid bestudeerd binnen onderzoek en toepassingen van versterkend leren.
Beleid
Beleid is de strategie die een agent volgt om zijn acties te bepalen op basis van de huidige toestand van de omgeving.
Er zijn twee typen beleid:
- Deterministisch beleid: de agent kiest altijd dezelfde actie voor een gegeven toestand;
- Stochastisch beleid: de agent kiest acties op basis van kansverdelingen.
Tijdens het leerproces is het doel van de agent het vinden van een optimale policy. Een optimale policy maximaliseert de verwachte opbrengst en stuurt de agent aan om in elke gegeven toestand de best mogelijke beslissingen te nemen.
Waardefuncties
Waardefuncties zijn essentieel om te begrijpen hoe een agent het potentieel van een bepaalde toestand of toestand-actie-paar beoordeelt. Ze worden gebruikt om de toekomstige verwachte beloningen te schatten, waardoor de agent weloverwogen beslissingen kan nemen.
Toestandswaardefunctie
Toestandswaardefunctie (of ) is een functie die de verwachte opbrengst geeft van het bevinden in een bepaalde toestand en het volgen van een specifiek beleid. Het helpt bij het evalueren van de aantrekkelijkheid van toestanden.
De waarde van een toestand kan wiskundig als volgt worden uitgedrukt:
Staat-Actie Waardefunctie
Staat-actie waardefunctie (of ) is een functie die de verwachte opbrengst geeft van het nemen van een bepaalde actie in een gegeven toestand en vervolgens het volgen van een specifiek beleid. Het helpt bij het evalueren van de wenselijkheid van acties in toestanden.
Staat-actie waardefunctie wordt vaak de actie waardefunctie genoemd.
De waarde van een actie kan wiskundig als volgt worden uitgedrukt:
Relatie tussen Model, Policy en Waardefuncties
De concepten model, policy en waardefuncties zijn nauw met elkaar verbonden en vormen een uitgebreid kader voor het categoriseren van RL-algoritmen. Dit kader wordt gedefinieerd door twee primaire assen:
- Leertarget: deze as vertegenwoordigt het spectrum van RL-algoritmen op basis van hun afhankelijkheid van waardefuncties, policyfuncties of een combinatie van beide;
- Modeltoepassing: deze as onderscheidt algoritmen op basis van het gebruik van een model van de omgeving of het uitsluitend leren door interactie.
Door deze dimensies te combineren, kunnen we RL-algoritmen indelen in onderscheidende categorieën, elk met hun eigen kenmerken en ideale toepassingsgebieden. Inzicht in deze relaties helpt bij het selecteren van het juiste algoritme voor specifieke taken, wat zorgt voor efficiënte leer- en besluitvormingsprocessen.
Bedankt voor je feedback!