Optimaliteitsvoorwaarden
In het vorige hoofdstuk heb je geleerd over de Bellman-vergelijkingen voor toestandswaarde- en toestand-actie-waardefuncties. Deze vergelijkingen beschrijven hoe toestandswaarden recursief kunnen worden gedefinieerd via de waarden van andere toestanden, waarbij de waarden afhankelijk zijn van een gegeven beleid. Niet alle beleidsvormen zijn echter even effectief. Waardefuncties bieden namelijk een partiële ordening voor beleidsvormen, wat als volgt kan worden beschreven:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SBeleid π is beter dan of gelijk aan beleid π′ als voor alle mogelijke toestanden de verwachte opbrengst van beleid π niet lager is dan de verwachte opbrengst van beleid π′.
Een partiële ordening volgt de gebruikelijke ordeningsregels, maar vereist niet dat elk paar wordt vergeleken. In ons geval kunnen we twee beleidsvormen alleen rangschikken als ze dezelfde resultaten opleveren, of als één duidelijk beter presteert dan de ander. In alle andere gevallen blijven beleidsvormen onvergelijkbaar.
Optimale strategie
Voor elke MDP bestaat er ten minste één strategie die even goed is als of beter dan alle andere strategieën. Deze strategie wordt een optimale strategie π∗ genoemd. Hoewel er meerdere optimale strategieën kunnen zijn, worden ze allemaal aangeduid als π∗.
Waarom bestaat er altijd een optimale strategie?
Je vraagt je misschien af waarom er voor elke MDP altijd een optimaal beleid bestaat. Dat is een goede vraag, en de intuïtie erachter is verrassend eenvoudig. Onthoud dat toestanden in een MDP de toestand van de omgeving volledig vastleggen. Dit betekent dat elke toestand onafhankelijk is van alle andere: de actie die in de ene toestand wordt gekozen, beïnvloedt niet de beloningen of uitkomsten die in een andere toestand haalbaar zijn. Door in elke toestand afzonderlijk de optimale actie te kiezen, kom je vanzelf tot de algeheel beste reeks acties voor het hele proces. En deze set van optimale acties in elke toestand vormt samen een optimaal beleid.
Bovendien is er altijd minstens één beleid dat zowel optimaal als deterministisch is. Als voor een bepaalde toestand s twee acties a en a′ dezelfde verwachte opbrengst opleveren, zal het kiezen van slechts één van deze acties de optimaliteit van het beleid niet beïnvloeden. Door dit principe op elke afzonderlijke toestand toe te passen, wordt het beleid deterministisch terwijl de optimaliteit behouden blijft.
Optimale waardefuncties
Optimale beleidsregels delen dezelfde waardefuncties — een feit dat duidelijk wordt wanneer we bekijken hoe beleidsregels worden vergeleken. Dit betekent dat optimale beleidsregels zowel de toestandswaardefunctie als de actie-waardefunctie delen.
Daarnaast hebben optimale waardefuncties hun eigen Bellman-vergelijkingen die kunnen worden opgesteld zonder verwijzing naar een specifiek beleid. Deze vergelijkingen worden Bellman-optimaliteitsvergelijkingen genoemd.
Optimale toestandswaardefunctie
Optimale toestandswaardefunctie V∗ (of v∗) vertegenwoordigt de maximaal verwachte opbrengst die haalbaar is vanuit een bepaalde toestand door een optimaal beleid te volgen.
Het kan wiskundig als volgt worden gedefinieerd:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Bellman-optimaliteitsvergelijking voor deze waardefunctie kan als volgt worden afgeleid:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuïtie
Zoals reeds bekend, bestaat er altijd ten minste één beleid dat zowel optimaal als deterministisch is. Een dergelijk beleid zou voor elke toestand consequent één specifieke actie selecteren die de verwachte opbrengst maximaliseert. Daarom is de kans om deze optimale actie te kiezen altijd 1, en de kans om elke andere actie te kiezen altijd 0. Gezien dit gegeven is de oorspronkelijke Bellman-vergelijking niet langer afhankelijk van de somoperator. In plaats daarvan, omdat we altijd de best mogelijke actie kiezen, kunnen we de som vervangen door het nemen van een maximum over alle beschikbare acties.
Optimale actie-waardefunctie
Optimale actie-waardefunctie Q∗ (of q∗) geeft de maximaal verwachte opbrengst weer die haalbaar is door een bepaalde actie te nemen in een bepaalde toestand en vervolgens het optimale beleid te volgen.
Het kan wiskundig als volgt worden gedefinieerd:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Bellman-optimaliteitsvergelijking voor deze waardefunctie kan als volgt worden afgeleid:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuïtie
Net als bij de toestandswaardefunctie kan de som worden vervangen door het nemen van een maximum over alle beschikbare acties.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain the difference between deterministic and stochastic policies?
How do Bellman optimality equations help in finding the optimal policy?
Can you provide an example of how to compute the optimal value function for a simple MDP?
Awesome!
Completion rate improved to 2.7
Optimaliteitsvoorwaarden
Veeg om het menu te tonen
In het vorige hoofdstuk heb je geleerd over de Bellman-vergelijkingen voor toestandswaarde- en toestand-actie-waardefuncties. Deze vergelijkingen beschrijven hoe toestandswaarden recursief kunnen worden gedefinieerd via de waarden van andere toestanden, waarbij de waarden afhankelijk zijn van een gegeven beleid. Niet alle beleidsvormen zijn echter even effectief. Waardefuncties bieden namelijk een partiële ordening voor beleidsvormen, wat als volgt kan worden beschreven:
π≥π′⟺vπ(s)≥vπ′(s)∀s∈SBeleid π is beter dan of gelijk aan beleid π′ als voor alle mogelijke toestanden de verwachte opbrengst van beleid π niet lager is dan de verwachte opbrengst van beleid π′.
Een partiële ordening volgt de gebruikelijke ordeningsregels, maar vereist niet dat elk paar wordt vergeleken. In ons geval kunnen we twee beleidsvormen alleen rangschikken als ze dezelfde resultaten opleveren, of als één duidelijk beter presteert dan de ander. In alle andere gevallen blijven beleidsvormen onvergelijkbaar.
Optimale strategie
Voor elke MDP bestaat er ten minste één strategie die even goed is als of beter dan alle andere strategieën. Deze strategie wordt een optimale strategie π∗ genoemd. Hoewel er meerdere optimale strategieën kunnen zijn, worden ze allemaal aangeduid als π∗.
Waarom bestaat er altijd een optimale strategie?
Je vraagt je misschien af waarom er voor elke MDP altijd een optimaal beleid bestaat. Dat is een goede vraag, en de intuïtie erachter is verrassend eenvoudig. Onthoud dat toestanden in een MDP de toestand van de omgeving volledig vastleggen. Dit betekent dat elke toestand onafhankelijk is van alle andere: de actie die in de ene toestand wordt gekozen, beïnvloedt niet de beloningen of uitkomsten die in een andere toestand haalbaar zijn. Door in elke toestand afzonderlijk de optimale actie te kiezen, kom je vanzelf tot de algeheel beste reeks acties voor het hele proces. En deze set van optimale acties in elke toestand vormt samen een optimaal beleid.
Bovendien is er altijd minstens één beleid dat zowel optimaal als deterministisch is. Als voor een bepaalde toestand s twee acties a en a′ dezelfde verwachte opbrengst opleveren, zal het kiezen van slechts één van deze acties de optimaliteit van het beleid niet beïnvloeden. Door dit principe op elke afzonderlijke toestand toe te passen, wordt het beleid deterministisch terwijl de optimaliteit behouden blijft.
Optimale waardefuncties
Optimale beleidsregels delen dezelfde waardefuncties — een feit dat duidelijk wordt wanneer we bekijken hoe beleidsregels worden vergeleken. Dit betekent dat optimale beleidsregels zowel de toestandswaardefunctie als de actie-waardefunctie delen.
Daarnaast hebben optimale waardefuncties hun eigen Bellman-vergelijkingen die kunnen worden opgesteld zonder verwijzing naar een specifiek beleid. Deze vergelijkingen worden Bellman-optimaliteitsvergelijkingen genoemd.
Optimale toestandswaardefunctie
Optimale toestandswaardefunctie V∗ (of v∗) vertegenwoordigt de maximaal verwachte opbrengst die haalbaar is vanuit een bepaalde toestand door een optimaal beleid te volgen.
Het kan wiskundig als volgt worden gedefinieerd:
v∗(s)=πmaxvπ(s)=Eπ∗[Gt∣St=s]Bellman-optimaliteitsvergelijking voor deze waardefunctie kan als volgt worden afgeleid:
v∗(s)=a∑π∗(a∣s)s′,r∑p(s′,r∣s,a)(r+γv∗(s′))=amaxs′,r∑p(s′,r∣s,a)(r+γv∗(s′))Intuïtie
Zoals reeds bekend, bestaat er altijd ten minste één beleid dat zowel optimaal als deterministisch is. Een dergelijk beleid zou voor elke toestand consequent één specifieke actie selecteren die de verwachte opbrengst maximaliseert. Daarom is de kans om deze optimale actie te kiezen altijd 1, en de kans om elke andere actie te kiezen altijd 0. Gezien dit gegeven is de oorspronkelijke Bellman-vergelijking niet langer afhankelijk van de somoperator. In plaats daarvan, omdat we altijd de best mogelijke actie kiezen, kunnen we de som vervangen door het nemen van een maximum over alle beschikbare acties.
Optimale actie-waardefunctie
Optimale actie-waardefunctie Q∗ (of q∗) geeft de maximaal verwachte opbrengst weer die haalbaar is door een bepaalde actie te nemen in een bepaalde toestand en vervolgens het optimale beleid te volgen.
Het kan wiskundig als volgt worden gedefinieerd:
q∗(s,a)=πmaxqπ(s,a)=Eπ∗[Gt∣St=s,At=a]Bellman-optimaliteitsvergelijking voor deze waardefunctie kan als volgt worden afgeleid:
q∗(s,a)=s′,r∑p(s′,r∣s,a)(r+γa′∑π∗(a′∣s′)q∗(s′,a′))=s′,r∑p(s′,r∣s,a)(r+γa′maxq∗(s′,a′))Intuïtie
Net als bij de toestandswaardefunctie kan de som worden vervangen door het nemen van een maximum over alle beschikbare acties.
Bedankt voor je feedback!