Cursusinhoud
Introductie tot Reinforcement Learning
Introductie tot Reinforcement Learning
Optimaliteitsvoorwaarden
In het vorige hoofdstuk heb je geleerd over de Bellman-vergelijkingen voor toestandswaarde- en toestand-actie-waardefuncties. Deze vergelijkingen beschrijven hoe toestandswaarden recursief kunnen worden gedefinieerd via de waarden van andere toestanden, waarbij de waarden afhankelijk zijn van een gegeven beleid. Niet alle beleidsregels zijn echter even effectief. Waardefuncties bieden namelijk een partiële ordening voor beleidsregels, die als volgt kan worden beschreven:
Dus beleid is beter dan of gelijk aan beleid als voor alle mogelijke toestanden de verwachte opbrengst van beleid niet lager is dan de verwachte opbrengst van beleid .
Een partiële ordening volgt de gebruikelijke ordeningsregels, maar dwingt niet af dat elk paar vergeleken wordt. In ons geval kunnen we twee beleidsregels alleen rangschikken als ze dezelfde resultaten opleveren, of als één duidelijk beter presteert dan de ander. In alle andere gevallen blijven beleidsregels onvergelijkbaar.
Optimale strategie
Voor elke MDP bestaat er ten minste één strategie die even goed of beter is dan alle andere strategieën. Deze strategie wordt een optimale strategie genoemd. Hoewel er meerdere optimale strategieën kunnen zijn, worden ze allemaal aangeduid als .
Waarom bestaat er altijd een optimale strategie?
Je vraagt je misschien af waarom er altijd een optimale strategie bestaat voor elke MDP. Dat is een goede vraag, en de intuïtie erachter is verrassend eenvoudig. Onthoud dat toestanden in een MDP de toestand van de omgeving volledig vastleggen. Dit betekent dat elke toestand onafhankelijk is van alle andere: de actie die in de ene toestand wordt gekozen, beïnvloedt niet de beloningen of uitkomsten die in een andere kunnen worden bereikt. Door in elke toestand afzonderlijk de optimale actie te kiezen, kom je vanzelf tot de algeheel beste reeks acties voor het hele proces. Deze verzameling optimale acties in elke toestand vormt een optimale strategie.
Bovendien is er altijd minstens één strategie die zowel optimaal als deterministisch is. Inderdaad, als voor een bepaalde toestand twee acties en dezelfde verwachte opbrengst opleveren, zal het kiezen van slechts één van deze acties de optimaliteit van de strategie niet beïnvloeden. Door dit principe op elke afzonderlijke toestand toe te passen, wordt de strategie deterministisch terwijl de optimaliteit behouden blijft.
Optimale waardefuncties
Optimale beleidslijnen delen dezelfde waardefuncties — een feit dat duidelijk wordt wanneer we bekijken hoe beleidslijnen met elkaar worden vergeleken. Dit betekent dat optimale beleidslijnen zowel de toestandswaardefunctie als de actie-waardefunctie delen.
Daarnaast hebben optimale waardefuncties hun eigen Bellman-vergelijkingen die kunnen worden opgesteld zonder verwijzing naar een specifiek beleid. Deze vergelijkingen worden Bellman-optimaliteitsvergelijkingen genoemd.
Optimale toestandswaardefunctie
Optimale toestandswaardefunctie (of ) geeft de maximaal verwachte opbrengst weer die vanuit een bepaalde toestand kan worden behaald door een optimaal beleid te volgen.
Het kan wiskundig als volgt worden gedefinieerd:
Bellman-optimaliteitsvergelijking voor deze waardefunctie kan als volgt worden afgeleid:
Intuïtie
Zoals reeds bekend, bestaat er altijd ten minste één beleid dat zowel optimaal als deterministisch is. Een dergelijk beleid zou voor elke toestand consequent één specifieke actie selecteren die de verwachte opbrengst maximaliseert. Daarom is de kans om deze optimale actie te kiezen altijd 1, en de kans om elke andere actie te kiezen altijd 0. Gegeven dit feit is de oorspronkelijke Bellman-vergelijking niet langer afhankelijk van de somoperator. In plaats daarvan, omdat we altijd de best mogelijke actie kiezen, kunnen we de som vervangen door het nemen van een maximum over alle beschikbare acties.
Optimale actie-waardefunctie
Optimale actie-waardefunctie (of ) geeft de maximale verwachte opbrengst weer die kan worden behaald door een bepaalde actie te nemen in een bepaalde toestand en vervolgens het optimale beleid te volgen.
Het kan wiskundig als volgt worden gedefinieerd:
Bellman-optimaliteitsvergelijking voor deze waarde-functie kan als volgt worden afgeleid:
Intuïtie
Net als bij de toestandswaardefunctie kan de som worden vervangen door het nemen van het maximum over alle beschikbare acties.
Bedankt voor je feedback!