Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Bellman-yhtälöt | Dynaaminen Ohjelmointi
Vahvistusoppimisen Perusteet

bookBellman-yhtälöt

Note
Määritelmä

Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.

Selvennyksenä määritelmälle:

  • Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jota varten yhtälö on muodostettu;
  • Rekursiivinen muoto tarkoittaa, että nykyisen tilan arvo ilmaistaan tulevien tilojen arvojen avulla.

Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen suhteen tunnistamista nykyisten ja tulevien tilojen välillä.

Tilaarvofunktio

Muistutuksena tässä on tilan arvofunktion tiivis muoto:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Saadaksesi Bellmanin yhtälön tälle arvofunktiolle, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s]=Eπ[Rt+1+γk=0γkRt+k+2St=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=aπ(as)s,rp(s,rs,a)(r+γvπ(s))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.

Intuitio

Tilan ss arvon määrittämiseksi:

  1. Otetaan huomioon kaikki mahdolliset toiminnot aa, joita voit suorittaa tästä tilasta, painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(as)\pi(a | s) mukaan;
  2. Jokaiselle toiminnolle aa tarkastellaan kaikkia mahdollisia seuraavia tiloja ss' ja palkkioita rr, painotettuna niiden todennäköisyydellä p(s,rs,a)p(s', r | s, a);
  3. Jokaisessa näistä tapauksista otetaan välitön palkkio rr sekä seuraavan tilan diskontattu arvo γvπ(s)\gamma v_\pi(s').

Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan ss odotettu kokonaisarvo nykyisen politiikan mukaisesti.

Toimintoarvofunktio

Tässä on toimintoarvofunktio tiiviissä muodossa:

qπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samanlainen kuin edellisessä tapauksessa:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s,At=a]=Eπ[Rt+1+γk=0γkRt+k+2St=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=s,rp(s,rs,a)(r+γaπ(as)(Eπ[Gt+1St+1=s,At+1=a]))=s,rp(s,rs,a)(r+γaπ(as)q(s,a))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.

Intuitio

Tilapari-toimintoparin (s,a)(s, a) arvon löytämiseksi:

  1. Tarkastellaan kaikkia mahdollisia seuraavia tiloja ss' ja palkkioita rr, painotettuna niiden todennäköisyydellä p(s,rs,a)p(s', r | s, a);
  2. Jokaisessa näistä tapauksista otetaan välitön palkkio rr sekä diskontattu arvo seuraavasta tilasta;
  3. Seuraavan tilan ss' arvo lasketaan siten, että kaikille mahdollisille toiminnoille aa' tilasta ss' kerrotaan toimintoparin arvo q(s,a)q(s', a') todennäköisyydellä, jolla aa' valitaan tilassa ss' nykyisen politiikan π(as)\pi(a' | s') mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.

Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a)(s, a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.

question mark

Mikä seuraavista kuvaa parhaiten Bellmanin yhtälön toimintaa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 2.7

bookBellman-yhtälöt

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Bellman-yhtälö on funktioyhtälö, joka määrittelee arvofunktion rekursiivisessa muodossa.

Selvennyksenä määritelmälle:

  • Funktioyhtälö on yhtälö, jonka ratkaisu on funktio. Bellman-yhtälön tapauksessa tämä ratkaisu on arvofunktio, jota varten yhtälö on muodostettu;
  • Rekursiivinen muoto tarkoittaa, että nykyisen tilan arvo ilmaistaan tulevien tilojen arvojen avulla.

Yhteenvetona, Bellman-yhtälön ratkaiseminen antaa halutun arvofunktion, ja tämän yhtälön johtaminen edellyttää rekursiivisen suhteen tunnistamista nykyisten ja tulevien tilojen välillä.

Tilaarvofunktio

Muistutuksena tässä on tilan arvofunktion tiivis muoto:

vπ(s)=Eπ[GtSt=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s]

Saadaksesi Bellmanin yhtälön tälle arvofunktiolle, laajennetaan yhtälön oikeaa puolta ja muodostetaan rekursiivinen yhteys:

vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s]=Eπ[Rt+1+γk=0γkRt+k+2St=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=aπ(as)s,rp(s,rs,a)(r+γvπ(s))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} v_\pi(s) &= \E_\pi[G_t | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s]\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_a \pi(a | s) \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma v_\pi(s')\Bigr) \end{aligned}

Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö tilan arvofunktiolle.

Intuitio

Tilan ss arvon määrittämiseksi:

  1. Otetaan huomioon kaikki mahdolliset toiminnot aa, joita voit suorittaa tästä tilasta, painotettuna sillä todennäköisyydellä, jolla valitset kyseisen toiminnon nykyisen politiikkasi π(as)\pi(a | s) mukaan;
  2. Jokaiselle toiminnolle aa tarkastellaan kaikkia mahdollisia seuraavia tiloja ss' ja palkkioita rr, painotettuna niiden todennäköisyydellä p(s,rs,a)p(s', r | s, a);
  3. Jokaisessa näistä tapauksista otetaan välitön palkkio rr sekä seuraavan tilan diskontattu arvo γvπ(s)\gamma v_\pi(s').

Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilan ss odotettu kokonaisarvo nykyisen politiikan mukaisesti.

Toimintoarvofunktio

Tässä on toimintoarvofunktio tiiviissä muodossa:

qπ(s,a)=Eπ[GtSt=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a]

Bellmanin yhtälön johtaminen tälle funktiolle on hyvin samanlainen kuin edellisessä tapauksessa:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...St=s,At=a]=Eπ[Rt+1+γk=0γkRt+k+2St=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=s,rp(s,rs,a)(r+γEπ[Gt+1St+1=s])=s,rp(s,rs,a)(r+γaπ(as)(Eπ[Gt+1St+1=s,At+1=a]))=s,rp(s,rs,a)(r+γaπ(as)q(s,a))\def\E{\operatorname{\mathbb{E}}} \begin{aligned} q_\pi(s, a) &= \E_\pi[G_t | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma \sum_{k=0}^\infty \gamma^k R_{t+k+2} | S_t = s, A_t = a]\\ &= \E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]\\ &= \sum_{s', r} p(s', r | s, a)\Bigl(r + \gamma \E_\pi\Bigl[G_{t+1} | S_{t+1} = s'\Bigr]\Bigr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') \Bigl(\E_\pi\Bigl[G_{t+1} | S_{t+1} = s', A_{t+1} = a'\Bigr]\Bigr)\Biggr)\\ &= \sum_{s', r} p(s', r | s, a)\Biggl(r + \gamma \sum_{a'} \pi(a' | s') q(s', a')\Biggr) \end{aligned}

Tämän ketjun viimeinen yhtälö on Bellmanin yhtälö toimintoarvofunktiolle.

Intuitio

Tilapari-toimintoparin (s,a)(s, a) arvon löytämiseksi:

  1. Tarkastellaan kaikkia mahdollisia seuraavia tiloja ss' ja palkkioita rr, painotettuna niiden todennäköisyydellä p(s,rs,a)p(s', r | s, a);
  2. Jokaisessa näistä tapauksista otetaan välitön palkkio rr sekä diskontattu arvo seuraavasta tilasta;
  3. Seuraavan tilan ss' arvo lasketaan siten, että kaikille mahdollisille toiminnoille aa' tilasta ss' kerrotaan toimintoparin arvo q(s,a)q(s', a') todennäköisyydellä, jolla aa' valitaan tilassa ss' nykyisen politiikan π(as)\pi(a' | s') mukaisesti. Lopuksi summataan kaikki yhteen saadakseen lopullisen arvon.

Yhteenlaskemalla kaikki nämä mahdollisuudet saadaan tilapari-toimintoparin (s,a)(s, a) odotettu kokonaisarvo nykyisen politiikan mukaisesti.

question mark

Mikä seuraavista kuvaa parhaiten Bellmanin yhtälön toimintaa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 2
some-alt