Beleidverbetering
Beleidsverbetering is een proces waarbij het beleid wordt verbeterd op basis van de huidige schattingen van de waardefunctie.
Net als bij beleidsevaluatie kan beleidsverbetering werken met zowel de toestandswaardefunctie als de actie-waardefunctie. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Nu je de toestandswaardefunctie kunt schatten voor elk beleid, is een logische volgende stap om te onderzoeken of er beleid bestaat dat beter is dan het huidige. Een manier om dit te doen, is door te overwegen een andere actie a te nemen in een toestand s, en daarna het huidige beleid te volgen. Dit klinkt wellicht bekend, omdat dit vergelijkbaar is met de definitie van de actie-waardefunctie:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Als deze nieuwe waarde groter is dan de oorspronkelijke toestandswaarde vπ(s), duidt dit erop dat het nemen van actie a in toestand s en vervolgens doorgaan met beleid π tot betere uitkomsten leidt dan het strikt volgen van beleid π. Aangezien toestanden onafhankelijk zijn, is het optimaal om altijd actie a te kiezen wanneer toestand s zich voordoet. Daarom kan een verbeterd beleid π′ worden geconstrueerd, identiek aan π behalve dat het actie a kiest in toestand s, wat superieur zou zijn aan het oorspronkelijke beleid π.
Beleidsverbeteringsstelling
De hierboven beschreven redenering kan worden gegeneraliseerd als de beleidsverbeteringsstelling:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)\qquqquad∀s∈S∀s∈SHet bewijs van deze stelling is relatief eenvoudig en kan worden bereikt door herhaalde substitutie:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Verbeteringsstrategie
Hoewel het bijwerken van acties voor bepaalde toestanden tot verbeteringen kan leiden, is het effectiever om acties voor alle toestanden gelijktijdig bij te werken. Specifiek, kies voor elke toestand s de actie a die de actie-waarde qπ(s,a) maximaliseert:
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))waarbij argmax (afkorting voor argument van het maximum) een operator is die de waarde van de variabele retourneert die een gegeven functie maximaliseert.
Het resulterende greedy-beleid, aangeduid met π′, voldoet door constructie aan de voorwaarden van het beleidverbeteringsstelling, waarmee wordt gegarandeerd dat π′ minstens zo goed is als het oorspronkelijke beleid π, en doorgaans beter.
Als π′ even goed is als, maar niet beter dan π, dan zijn zowel π′ als π optimale beleidsvormen, aangezien hun waardefuncties gelijk zijn en voldoen aan de Bellman-optimaliteitsvergelijking:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Beleidverbetering
Veeg om het menu te tonen
Beleidsverbetering is een proces waarbij het beleid wordt verbeterd op basis van de huidige schattingen van de waardefunctie.
Net als bij beleidsevaluatie kan beleidsverbetering werken met zowel de toestandswaardefunctie als de actie-waardefunctie. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Nu je de toestandswaardefunctie kunt schatten voor elk beleid, is een logische volgende stap om te onderzoeken of er beleid bestaat dat beter is dan het huidige. Een manier om dit te doen, is door te overwegen een andere actie a te nemen in een toestand s, en daarna het huidige beleid te volgen. Dit klinkt wellicht bekend, omdat dit vergelijkbaar is met de definitie van de actie-waardefunctie:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Als deze nieuwe waarde groter is dan de oorspronkelijke toestandswaarde vπ(s), duidt dit erop dat het nemen van actie a in toestand s en vervolgens doorgaan met beleid π tot betere uitkomsten leidt dan het strikt volgen van beleid π. Aangezien toestanden onafhankelijk zijn, is het optimaal om altijd actie a te kiezen wanneer toestand s zich voordoet. Daarom kan een verbeterd beleid π′ worden geconstrueerd, identiek aan π behalve dat het actie a kiest in toestand s, wat superieur zou zijn aan het oorspronkelijke beleid π.
Beleidsverbeteringsstelling
De hierboven beschreven redenering kan worden gegeneraliseerd als de beleidsverbeteringsstelling:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)\qquqquad∀s∈S∀s∈SHet bewijs van deze stelling is relatief eenvoudig en kan worden bereikt door herhaalde substitutie:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Verbeteringsstrategie
Hoewel het bijwerken van acties voor bepaalde toestanden tot verbeteringen kan leiden, is het effectiever om acties voor alle toestanden gelijktijdig bij te werken. Specifiek, kies voor elke toestand s de actie a die de actie-waarde qπ(s,a) maximaliseert:
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))waarbij argmax (afkorting voor argument van het maximum) een operator is die de waarde van de variabele retourneert die een gegeven functie maximaliseert.
Het resulterende greedy-beleid, aangeduid met π′, voldoet door constructie aan de voorwaarden van het beleidverbeteringsstelling, waarmee wordt gegarandeerd dat π′ minstens zo goed is als het oorspronkelijke beleid π, en doorgaans beter.
Als π′ even goed is als, maar niet beter dan π, dan zijn zowel π′ als π optimale beleidsvormen, aangezien hun waardefuncties gelijk zijn en voldoen aan de Bellman-optimaliteitsvergelijking:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Bedankt voor je feedback!