Bellman-ligninger
En Bellman-ligning er en funksjonell ligning som definerer en verdifunksjon i rekursiv form.
For å tydeliggjøre definisjonen:
- En funksjonell ligning er en ligning der løsningen er en funksjon. For Bellman-ligningen er denne løsningen verdifunksjonen som ligningen er formulert for;
- En rekursiv form betyr at verdien i nåværende tilstand uttrykkes ved hjelp av verdier i fremtidige tilstander.
Kort sagt, å løse Bellman-ligningen gir den ønskede verdifunksjonen, og å utlede denne ligningen krever å identifisere et rekursivt forhold mellom nåværende og fremtidige tilstander.
Tilstandsverdifunksjon
Som en påminnelse, her er en tilstandsverdifunksjon i kompakt form:
vπ(s)=Eπ[Gt∣St=s]For å utlede Bellman-likningen for denne verdifunksjonen, utvider vi høyresiden av likningen og etablerer et rekursivt forhold:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den siste likningen i denne kjeden er en Bellman-likning for tilstandsverdifunksjonen.
Intuisjon
For å finne verdien til en tilstand s:
- Vurder alle mulige handlinger a du kan ta fra denne tilstanden, hver vektet etter hvor sannsynlig det er at du velger denne handlingen under din nåværende policy π(a∣s);
- For hver handling a vurderer du alle mulige neste tilstander s′ og belønninger r, vektet etter sannsynligheten p(s′,r∣s,a);
- For hvert av disse utfallene tar du den umiddelbare belønningen r du får pluss den diskonterte verdien av neste tilstand γvπ(s′).
Ved å summere alle disse mulighetene får du den totale forventede verdien av tilstanden s under din nåværende policy.
Handlingsverdifunksjon
Her er en handlingsverdifunksjon i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Utledningen av Bellman-likningen for denne funksjonen ligner mye på den forrige:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den siste likningen i denne kjeden er en Bellman-likning for handlingsverdifunksjonen.
Intuisjon
For å finne verdien til et tilstands-handlingspar (s,a), gjør du følgende:
- Vurder alle mulige neste tilstander s′ og belønninger r, vektet etter sannsynligheten p(s′,r∣s,a);
- For hvert av disse utfallene tar du den umiddelbare belønningen r du får, pluss den diskonterte verdien av neste tilstand;
- For å beregne verdien av neste tilstand s′, for alle handlinger a′ som er mulige fra tilstand s′, multipliserer du handlingsverdien q(s′,a′) med sannsynligheten for å velge a′ i tilstand s′ under gjeldende policy π(a′∣s′). Deretter summerer du alt for å få den endelige verdien.
Ved å summere alle disse mulighetene sammen, får du den totale forventede verdien av tilstands-handlingsparet (s,a) under din nåværende policy.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 2.7
Bellman-ligninger
Sveip for å vise menyen
En Bellman-ligning er en funksjonell ligning som definerer en verdifunksjon i rekursiv form.
For å tydeliggjøre definisjonen:
- En funksjonell ligning er en ligning der løsningen er en funksjon. For Bellman-ligningen er denne løsningen verdifunksjonen som ligningen er formulert for;
- En rekursiv form betyr at verdien i nåværende tilstand uttrykkes ved hjelp av verdier i fremtidige tilstander.
Kort sagt, å løse Bellman-ligningen gir den ønskede verdifunksjonen, og å utlede denne ligningen krever å identifisere et rekursivt forhold mellom nåværende og fremtidige tilstander.
Tilstandsverdifunksjon
Som en påminnelse, her er en tilstandsverdifunksjon i kompakt form:
vπ(s)=Eπ[Gt∣St=s]For å utlede Bellman-likningen for denne verdifunksjonen, utvider vi høyresiden av likningen og etablerer et rekursivt forhold:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den siste likningen i denne kjeden er en Bellman-likning for tilstandsverdifunksjonen.
Intuisjon
For å finne verdien til en tilstand s:
- Vurder alle mulige handlinger a du kan ta fra denne tilstanden, hver vektet etter hvor sannsynlig det er at du velger denne handlingen under din nåværende policy π(a∣s);
- For hver handling a vurderer du alle mulige neste tilstander s′ og belønninger r, vektet etter sannsynligheten p(s′,r∣s,a);
- For hvert av disse utfallene tar du den umiddelbare belønningen r du får pluss den diskonterte verdien av neste tilstand γvπ(s′).
Ved å summere alle disse mulighetene får du den totale forventede verdien av tilstanden s under din nåværende policy.
Handlingsverdifunksjon
Her er en handlingsverdifunksjon i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Utledningen av Bellman-likningen for denne funksjonen ligner mye på den forrige:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den siste likningen i denne kjeden er en Bellman-likning for handlingsverdifunksjonen.
Intuisjon
For å finne verdien til et tilstands-handlingspar (s,a), gjør du følgende:
- Vurder alle mulige neste tilstander s′ og belønninger r, vektet etter sannsynligheten p(s′,r∣s,a);
- For hvert av disse utfallene tar du den umiddelbare belønningen r du får, pluss den diskonterte verdien av neste tilstand;
- For å beregne verdien av neste tilstand s′, for alle handlinger a′ som er mulige fra tilstand s′, multipliserer du handlingsverdien q(s′,a′) med sannsynligheten for å velge a′ i tilstand s′ under gjeldende policy π(a′∣s′). Deretter summerer du alt for å få den endelige verdien.
Ved å summere alle disse mulighetene sammen, får du den totale forventede verdien av tilstands-handlingsparet (s,a) under din nåværende policy.
Takk for tilbakemeldingene dine!