Bellman-Ligninger
En Bellman-ligning er en funktionel ligning, der definerer en værdifunktion i rekursiv form.
For at præcisere definitionen:
- En funktionel ligning er en ligning, hvis løsning er en funktion. For Bellman-ligningen er denne løsning værdifunktionen, som ligningen er formuleret for;
- En rekursiv form betyder, at værdien i den nuværende tilstand udtrykkes ved hjælp af værdier i fremtidige tilstande.
Kort sagt, løsning af Bellman-ligningen giver den ønskede værdifunktion, og udledning af denne ligning kræver identifikation af et rekursivt forhold mellem nuværende og fremtidige tilstande.
Tilstands-værdifunktion
Som en påmindelse er her en tilstandsværdi-funktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]For at opnå Bellman-ligningen for denne værdifunktion, udvider vi højresiden af ligningen og etablerer en rekursiv relation:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sidste ligning i denne kæde er en Bellman-ligning for tilstandsværdi-funktionen.
Intuition
For at finde værdien af en tilstand s:
- Overvej alle mulige handlinger a, du kan udføre fra denne tilstand, hver vægtet efter sandsynligheden for at vælge denne handling under din nuværende politik π(a∣s);
- For hver handling a overvejes alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tages den umiddelbare belønning r plus den diskonterede værdi af næste tilstand γvπ(s′).
Ved at summere alle disse muligheder opnås den samlede forventede værdi af tilstanden s under din nuværende politik.
Aktionsværdifunktion
Her er en aktionsværdifunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Udledningen af Bellman-ligningen for denne funktion ligner meget den foregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sidste ligning i denne kæde er en Bellman-ligning for aktionsværdifunktionen.
Intuition
For at finde værdien af et tilstands-handlingspar (s,a):
- Overvej alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tages den umiddelbare belønning r plus den diskonterede værdi af den næste tilstand;
- For at beregne værdien af den næste tilstand s′, for alle handlinger a′ mulige fra tilstand s′, multipliceres handlingsværdien q(s′,a′) med sandsynligheden for at vælge a′ i tilstand s′ under den nuværende politik π(a′∣s′). Til sidst summeres alt for at opnå den endelige værdi.
Ved at summere alle disse muligheder sammen opnås den samlede forventede værdi af tilstands-handlingsparret (s,a) under den nuværende politik.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 2.7
Bellman-Ligninger
Stryg for at vise menuen
En Bellman-ligning er en funktionel ligning, der definerer en værdifunktion i rekursiv form.
For at præcisere definitionen:
- En funktionel ligning er en ligning, hvis løsning er en funktion. For Bellman-ligningen er denne løsning værdifunktionen, som ligningen er formuleret for;
- En rekursiv form betyder, at værdien i den nuværende tilstand udtrykkes ved hjælp af værdier i fremtidige tilstande.
Kort sagt, løsning af Bellman-ligningen giver den ønskede værdifunktion, og udledning af denne ligning kræver identifikation af et rekursivt forhold mellem nuværende og fremtidige tilstande.
Tilstands-værdifunktion
Som en påmindelse er her en tilstandsværdi-funktion i kompakt form:
vπ(s)=Eπ[Gt∣St=s]For at opnå Bellman-ligningen for denne værdifunktion, udvider vi højresiden af ligningen og etablerer en rekursiv relation:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Den sidste ligning i denne kæde er en Bellman-ligning for tilstandsværdi-funktionen.
Intuition
For at finde værdien af en tilstand s:
- Overvej alle mulige handlinger a, du kan udføre fra denne tilstand, hver vægtet efter sandsynligheden for at vælge denne handling under din nuværende politik π(a∣s);
- For hver handling a overvejes alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tages den umiddelbare belønning r plus den diskonterede værdi af næste tilstand γvπ(s′).
Ved at summere alle disse muligheder opnås den samlede forventede værdi af tilstanden s under din nuværende politik.
Aktionsværdifunktion
Her er en aktionsværdifunktion i kompakt form:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Udledningen af Bellman-ligningen for denne funktion ligner meget den foregående:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Den sidste ligning i denne kæde er en Bellman-ligning for aktionsværdifunktionen.
Intuition
For at finde værdien af et tilstands-handlingspar (s,a):
- Overvej alle mulige næste tilstande s′ og belønninger r, vægtet efter deres sandsynlighed p(s′,r∣s,a);
- For hvert af disse udfald tages den umiddelbare belønning r plus den diskonterede værdi af den næste tilstand;
- For at beregne værdien af den næste tilstand s′, for alle handlinger a′ mulige fra tilstand s′, multipliceres handlingsværdien q(s′,a′) med sandsynligheden for at vælge a′ i tilstand s′ under den nuværende politik π(a′∣s′). Til sidst summeres alt for at opnå den endelige værdi.
Ved at summere alle disse muligheder sammen opnås den samlede forventede værdi af tilstands-handlingsparret (s,a) under den nuværende politik.
Tak for dine kommentarer!