Politikforbedring
Politikforbedring er en proces, hvor politikken forbedres baseret på de nuværende estimater af værdifunktionen.
Ligesom ved politikkevaluering kan politikforbedring anvendes med både tilstandsværdifunktion og aktionsværdifunktion. For DP-metoder anvendes dog tilstandsværdifunktionen.
Nu hvor du kan estimere tilstandsværdifunktionen for en vilkårlig politik, er det naturlige næste skridt at undersøge, om der findes politikker, der er bedre end den nuværende. En måde at gøre dette på er at overveje at vælge en anden handling a i en tilstand s og derefter følge den nuværende politik. Hvis dette virker bekendt, er det fordi det ligner definitionen af aktionsværdifunktionen:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Hvis denne nye værdi er større end den oprindelige tilstandsværdi vπ(s), indikerer det, at det at vælge handling a i tilstand s og derefter fortsætte med politik π fører til bedre resultater end udelukkende at følge politik π. Da tilstande er uafhængige, er det optimalt altid at vælge handling a, når tilstand s optræder. Derfor kan vi konstruere en forbedret politik π′, som er identisk med π bortset fra, at den vælger handling a i tilstand s, hvilket vil være bedre end den oprindelige politik π.
Politisk forbedringsteorem
Den ovenfor beskrevne ræsonnement kan generaliseres som politisk forbedringsteorem:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SBeviset for denne sætning er relativt simpelt og kan opnås ved en gentagen substitution:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Forbedringsstrategi
Selvom opdatering af handlinger for visse tilstande kan føre til forbedringer, er det mere effektivt at opdatere handlinger for alle tilstande samtidigt. Specifikt vælges for hver tilstand s den handling a, der maksimerer handlingsværdien qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))hvor argmax (forkortelse for argumentet for maksimum) er en operator, der returnerer værdien af variablen, som maksimerer en given funktion.
Den resulterende grådige politik, betegnet som π′, opfylder betingelserne for policy improvement-sætningen ved konstruktion, hvilket garanterer, at π′ er mindst lige så god som den oprindelige politik π, og typisk bedre.
Hvis π′ er lige så god som, men ikke bedre end π, så er både π′ og π optimale politikker, da deres værdifunktioner er ens og opfylder Bellmans optimalitetsligning:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain the policy improvement theorem in simpler terms?
How does the greedy policy guarantee improvement over the original policy?
What is the Bellman optimality equation and why is it important?
Awesome!
Completion rate improved to 2.7
Politikforbedring
Stryg for at vise menuen
Politikforbedring er en proces, hvor politikken forbedres baseret på de nuværende estimater af værdifunktionen.
Ligesom ved politikkevaluering kan politikforbedring anvendes med både tilstandsværdifunktion og aktionsværdifunktion. For DP-metoder anvendes dog tilstandsværdifunktionen.
Nu hvor du kan estimere tilstandsværdifunktionen for en vilkårlig politik, er det naturlige næste skridt at undersøge, om der findes politikker, der er bedre end den nuværende. En måde at gøre dette på er at overveje at vælge en anden handling a i en tilstand s og derefter følge den nuværende politik. Hvis dette virker bekendt, er det fordi det ligner definitionen af aktionsværdifunktionen:
qπ(s,a)=s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Hvis denne nye værdi er større end den oprindelige tilstandsværdi vπ(s), indikerer det, at det at vælge handling a i tilstand s og derefter fortsætte med politik π fører til bedre resultater end udelukkende at følge politik π. Da tilstande er uafhængige, er det optimalt altid at vælge handling a, når tilstand s optræder. Derfor kan vi konstruere en forbedret politik π′, som er identisk med π bortset fra, at den vælger handling a i tilstand s, hvilket vil være bedre end den oprindelige politik π.
Politisk forbedringsteorem
Den ovenfor beskrevne ræsonnement kan generaliseres som politisk forbedringsteorem:
⟹qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)∀s∈S∀s∈SBeviset for denne sætning er relativt simpelt og kan opnås ved en gentagen substitution:
vπ(s)≤qπ(s,π′(s))=Eπ′[Rt+1+γvπ(St+1)∣St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))∣St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)]∣St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)∣St=s]...≤Eπ′[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=vπ′(s)Forbedringsstrategi
Selvom opdatering af handlinger for visse tilstande kan føre til forbedringer, er det mere effektivt at opdatere handlinger for alle tilstande samtidigt. Specifikt vælges for hver tilstand s den handling a, der maksimerer handlingsværdien qπ(s,a):
π′(s)←aargmaxqπ(s,a)←aargmaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))hvor argmax (forkortelse for argumentet for maksimum) er en operator, der returnerer værdien af variablen, som maksimerer en given funktion.
Den resulterende grådige politik, betegnet som π′, opfylder betingelserne for policy improvement-sætningen ved konstruktion, hvilket garanterer, at π′ er mindst lige så god som den oprindelige politik π, og typisk bedre.
Hvis π′ er lige så god som, men ikke bedre end π, så er både π′ og π optimale politikker, da deres værdifunktioner er ens og opfylder Bellmans optimalitetsligning:
vπ(s)=amaxs′,r∑p(s′,r∣s,a)(r+γvπ(s′))Tak for dine kommentarer!