Рівняння Беллмана
Свайпніть щоб показати меню
Рівняння Беллмана — це функціональне рівняння, яке визначає функцію цінності у рекурсивній формі.
Для уточнення визначення:
- Функціональне рівняння — це рівняння, розв'язком якого є функція. Для рівняння Беллмана цим розв'язком є функція цінності, для якої й було сформульовано рівняння;
- Рекурсивна форма означає, що значення у поточному стані виражається через значення у майбутніх станах.
Коротко, розв'язання рівняння Беллмана дає шукану функцію цінності, а виведення цього рівняння вимагає визначення рекурсивного зв'язку між поточними та майбутніми станами.
Функція цінності стану
Для нагадування, ось функція цінності стану у компактній формі:
vπ(s)=Eπ[Gt∣St=s]Щоб отримати рівняння Беллмана для цієї функції цінності, розкриємо праву частину рівняння та встановимо рекурсивний зв'язок:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності стану.
Інтуїція
Щоб знайти цінність стану s, необхідно:
- Розглянути всі можливі дії a, які можна виконати з цього стану, кожна з яких зважується відповідно до ймовірності вибору цієї дії згідно з поточною політикою π(a∣s);
- Для кожної дії a розглянути всі можливі наступні стани s′ та винагороди r, зважені за їх ймовірністю p(s′,r∣s,a);
- Для кожного з цих результатів врахувати негайну винагороду r та дисконтовану цінність наступного стану γvπ(s′).
Підсумовуючи всі ці можливості, отримуємо загальне очікуване значення стану s згідно з поточною політикою.
Функція цінності дії
Ось функція цінності дії у компактній формі:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Виведення рівняння Беллмана для цієї функції є досить схожим на попереднє:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності дії.
Інтуїція
Щоб знайти значення пари стан-дія (s,a), необхідно:
- Розглянути всі можливі наступні стани s′ та винагороди r, з урахуванням їх ймовірності p(s′,r∣s,a);
- Для кожного з цих результатів взяти негайну винагороду r, яку ви отримуєте, плюс дисконтоване значення наступного стану;
- Щоб обчислити значення наступного стану s′, для всіх дій a′, можливих зі стану s′, помножити значення дії q(s′,a′) на ймовірність вибору a′ у стані s′ згідно з поточною політикою π(a′∣s′). Потім підсумувати все, щоб отримати кінцеве значення.
Підсумовуючи всі ці можливості, отримуємо загальне очікуване значення пари стан-дія (s,a) згідно з поточною політикою.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат