Beleidverbetering
Beleidsverbetering is een proces waarbij het beleid wordt verbeterd op basis van de huidige schattingen van de waardefunctie.
Net als bij beleidsevaluatie kan beleidsverbetering werken met zowel de toestandswaardefunctie als de actie-waardefunctie. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Nu je de toestandswaardefunctie kunt schatten voor elk beleid, is een logische volgende stap om te onderzoeken of er beleidsvormen zijn die beter zijn dan het huidige beleid. Een manier om dit te doen, is door te overwegen een andere actie a te nemen in een toestand s, en vervolgens het huidige beleid te volgen. Als dit bekend voorkomt, komt dat omdat dit vergelijkbaar is met hoe de actie-waardefunctie wordt gedefinieerd:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Als deze nieuwe waarde groter is dan de oorspronkelijke toestandswaarde vπ(s), duidt dit erop dat het nemen van actie a in toestand s en vervolgens doorgaan met beleid π tot betere uitkomsten leidt dan strikt het volgen van beleid π. Aangezien toestanden onafhankelijk zijn, is het optimaal om altijd actie a te kiezen wanneer toestand s zich voordoet. Daarom kunnen we een verbeterd beleid π′ opstellen, identiek aan π behalve dat het actie a kiest in toestand s, wat superieur zou zijn aan het oorspronkelijke beleid π.
Beleidsverbeterstelling
De hierboven beschreven redenering kan worden gegeneraliseerd als de beleidsverbeterstelling:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SHet bewijs van deze stelling is relatief eenvoudig en kan worden bereikt door een herhaalde substitutie:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Verbeteringsstrategie
Hoewel het bijwerken van acties voor bepaalde toestanden tot verbeteringen kan leiden, is het effectiever om acties voor alle toestanden gelijktijdig bij te werken. Specifiek, kies voor elke toestand s de actie a die de actie-waarde qπ(s,a) maximaliseert:
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))waarbij argmax (afkorting voor argument van het maximum) een operator is die de waarde van de variabele retourneert die een gegeven functie maximaliseert.
Het resulterende greedy beleid, aangeduid als π′, voldoet door constructie aan de voorwaarden van het policy improvement theorem, waarmee wordt gegarandeerd dat π′ minstens zo goed is als het oorspronkelijke beleid π, en doorgaans beter.
Als π′ even goed is als, maar niet beter dan π, dan zijn zowel π′ als π optimale beleidsvormen, aangezien hun waarde-functies gelijk zijn en voldoen aan de Bellman optimaliteitsvergelijking:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 2.7
Beleidverbetering
Veeg om het menu te tonen
Beleidsverbetering is een proces waarbij het beleid wordt verbeterd op basis van de huidige schattingen van de waardefunctie.
Net als bij beleidsevaluatie kan beleidsverbetering werken met zowel de toestandswaardefunctie als de actie-waardefunctie. Voor DP-methoden wordt echter de toestandswaardefunctie gebruikt.
Nu je de toestandswaardefunctie kunt schatten voor elk beleid, is een logische volgende stap om te onderzoeken of er beleidsvormen zijn die beter zijn dan het huidige beleid. Een manier om dit te doen, is door te overwegen een andere actie a te nemen in een toestand s, en vervolgens het huidige beleid te volgen. Als dit bekend voorkomt, komt dat omdat dit vergelijkbaar is met hoe de actie-waardefunctie wordt gedefinieerd:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Als deze nieuwe waarde groter is dan de oorspronkelijke toestandswaarde vπ(s), duidt dit erop dat het nemen van actie a in toestand s en vervolgens doorgaan met beleid π tot betere uitkomsten leidt dan strikt het volgen van beleid π. Aangezien toestanden onafhankelijk zijn, is het optimaal om altijd actie a te kiezen wanneer toestand s zich voordoet. Daarom kunnen we een verbeterd beleid π′ opstellen, identiek aan π behalve dat het actie a kiest in toestand s, wat superieur zou zijn aan het oorspronkelijke beleid π.
Beleidsverbeterstelling
De hierboven beschreven redenering kan worden gegeneraliseerd als de beleidsverbeterstelling:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SHet bewijs van deze stelling is relatief eenvoudig en kan worden bereikt door een herhaalde substitutie:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Verbeteringsstrategie
Hoewel het bijwerken van acties voor bepaalde toestanden tot verbeteringen kan leiden, is het effectiever om acties voor alle toestanden gelijktijdig bij te werken. Specifiek, kies voor elke toestand s de actie a die de actie-waarde qπ(s,a) maximaliseert:
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))waarbij argmax (afkorting voor argument van het maximum) een operator is die de waarde van de variabele retourneert die een gegeven functie maximaliseert.
Het resulterende greedy beleid, aangeduid als π′, voldoet door constructie aan de voorwaarden van het policy improvement theorem, waarmee wordt gegarandeerd dat π′ minstens zo goed is als het oorspronkelijke beleid π, en doorgaans beter.
Als π′ even goed is als, maar niet beter dan π, dan zijn zowel π′ als π optimale beleidsvormen, aangezien hun waarde-functies gelijk zijn en voldoen aan de Bellman optimaliteitsvergelijking:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Bedankt voor je feedback!