Bellman-Ligninger
En Bellman-ligning er en funktionel ligning, der definerer en værdifunktion i rekursiv form.
For at præcisere definitionen:
- En funktionel ligning er en ligning, hvis løsning er en funktion. For Bellman-ligningen er denne løsning værdifunktionen, som ligningen er formuleret for;
- En rekursiv form betyder, at værdien i den nuværende tilstand udtrykkes ved hjælp af værdier i fremtidige tilstande.
Kort sagt, løsning af Bellman-ligningen giver den ønskede værdifunktion, og udledning af denne ligning kræver identifikation af et rekursivt forhold mellem nuværende og fremtidige tilstande.
Tilstands-værdifunktion
Som en påmindelse er her en tilstandsværdi-funktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]For at opnå Bellman-ligningen for denne værdifunktion, udvides højresiden af ligningen for at etablere en rekursiv relation:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sidste ligning i denne kæde er en Bellman-ligning for tilstandsværdifunktionen.
Intuition
For at finde værdien af en tilstand s:
- Overvej alle mulige handlinger a, der kan udføres fra denne tilstand, vægtet efter sandsynligheden for at vælge denne handling under den nuværende politik π(a∣s);
- For hver handling a overvejes alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tages den umiddelbare belønning r plus den diskonterede værdi af næste tilstand γvπ(s′).
Ved at summere alle disse muligheder opnås den samlede forventede værdi af tilstanden s under den nuværende politik.
Handlingsværdifunktion
Her er en handlingsværdifunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Udledningen af Bellman-ligningen for denne funktion ligner meget den foregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sidste ligning i denne kæde er en Bellman-ligning for handlingsværdifunktionen.
Intuition
For at finde værdien af et tilstands-handlingspar (s,a), skal du:
- Overveje alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tager du den umiddelbare belønning r, du modtager, plus den diskonterede værdi af den næste tilstand;
- For at beregne værdien af den næste tilstand s′, for alle handlinger a′ mulige fra tilstand s′, multipliceres handlingsværdien q(s′,a′) med sandsynligheden for at vælge a′ i tilstand s′ under den nuværende politik π(a′∣s′. Til sidst summeres alt for at opnå den endelige værdi.
Ved at summere alle disse muligheder sammen opnås den samlede forventede værdi af tilstands-handlingsparret (s,a) under den nuværende politik.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain the difference between the state value function and the action value function?
How does the Bellman equation help in reinforcement learning?
Can you provide a simple example illustrating the Bellman equation?
Awesome!
Completion rate improved to 2.7
Bellman-Ligninger
Stryg for at vise menuen
En Bellman-ligning er en funktionel ligning, der definerer en værdifunktion i rekursiv form.
For at præcisere definitionen:
- En funktionel ligning er en ligning, hvis løsning er en funktion. For Bellman-ligningen er denne løsning værdifunktionen, som ligningen er formuleret for;
- En rekursiv form betyder, at værdien i den nuværende tilstand udtrykkes ved hjælp af værdier i fremtidige tilstande.
Kort sagt, løsning af Bellman-ligningen giver den ønskede værdifunktion, og udledning af denne ligning kræver identifikation af et rekursivt forhold mellem nuværende og fremtidige tilstande.
Tilstands-værdifunktion
Som en påmindelse er her en tilstandsværdi-funktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]For at opnå Bellman-ligningen for denne værdifunktion, udvides højresiden af ligningen for at etablere en rekursiv relation:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sidste ligning i denne kæde er en Bellman-ligning for tilstandsværdifunktionen.
Intuition
For at finde værdien af en tilstand s:
- Overvej alle mulige handlinger a, der kan udføres fra denne tilstand, vægtet efter sandsynligheden for at vælge denne handling under den nuværende politik π(a∣s);
- For hver handling a overvejes alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tages den umiddelbare belønning r plus den diskonterede værdi af næste tilstand γvπ(s′).
Ved at summere alle disse muligheder opnås den samlede forventede værdi af tilstanden s under den nuværende politik.
Handlingsværdifunktion
Her er en handlingsværdifunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Udledningen af Bellman-ligningen for denne funktion ligner meget den foregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sidste ligning i denne kæde er en Bellman-ligning for handlingsværdifunktionen.
Intuition
For at finde værdien af et tilstands-handlingspar (s,a), skal du:
- Overveje alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tager du den umiddelbare belønning r, du modtager, plus den diskonterede værdi af den næste tilstand;
- For at beregne værdien af den næste tilstand s′, for alle handlinger a′ mulige fra tilstand s′, multipliceres handlingsværdien q(s′,a′) med sandsynligheden for at vælge a′ i tilstand s′ under den nuværende politik π(a′∣s′. Til sidst summeres alt for at opnå den endelige værdi.
Ved at summere alle disse muligheder sammen opnås den samlede forventede værdi af tilstands-handlingsparret (s,a) under den nuværende politik.
Tak for dine kommentarer!