Рівняння Беллмана
Рівняння Беллмана — це функціональне рівняння, яке визначає функцію цінності у рекурсивній формі.
Для уточнення визначення:
- Функціональне рівняння — це рівняння, розв'язком якого є функція. Для рівняння Беллмана цим розв'язком є функція цінності, для якої й було сформульовано рівняння;
- Рекурсивна форма означає, що значення у поточному стані виражається через значення у майбутніх станах.
Коротко, розв'язання рівняння Беллмана дає шукану функцію цінності, а виведення цього рівняння вимагає визначення рекурсивного зв'язку між поточними та майбутніми станами.
Функція цінності стану
Для нагадування, ось функція цінності стану у компактній формі:
vπ(s)=Eπ[Gt∣St=s]Щоб отримати рівняння Беллмана для цієї функції цінності, розкриємо праву частину рівняння та встановимо рекурсивний зв'язок:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності стану.
Інтуїція
Щоб знайти цінність стану s, потрібно:
- Розглянути всі можливі дії a, які можна виконати з цього стану, кожна з яких зважується відповідно до ймовірності вибору цієї дії згідно з поточною політикою π(a∣s);
- Для кожної дії a розглянути всі можливі наступні стани s′ та винагороди r, зважені за їх ймовірністю p(s′,r∣s,a);
- Для кожного з цих результатів взяти негайну винагороду r, яку отримуєте, плюс дисконтовану цінність наступного стану γvπ(s′).
Підсумовуючи всі ці можливості, отримуємо загальне очікуване значення стану s згідно з поточною політикою.
Функція цінності дії
Ось функція цінності дії у компактній формі:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Виведення рівняння Беллмана для цієї функції дуже схоже на попереднє:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності дії.
Інтуїція
Щоб знайти значення пари стан-дія (s,a), потрібно:
- Розглянути всі можливі наступні стани s′ та винагороди r, зважені за їх ймовірністю p(s′,r∣s,a);
- Для кожного з цих результатів взяти негайну винагороду r, яку ви отримуєте, плюс дисконтоване значення наступного стану;
- Щоб обчислити значення наступного стану s′, для всіх дій a′, можливих зі стану s′, помножити значення дії q(s′,a′) на ймовірність вибору a′ у стані s′ згідно з поточною політикою π(a′∣s′). Потім підсумувати все, щоб отримати кінцеве значення.
Підсумовуючи всі ці можливості, ви отримуєте загальне очікуване значення пари стан-дія (s,a) згідно з вашою поточною політикою.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Рівняння Беллмана
Свайпніть щоб показати меню
Рівняння Беллмана — це функціональне рівняння, яке визначає функцію цінності у рекурсивній формі.
Для уточнення визначення:
- Функціональне рівняння — це рівняння, розв'язком якого є функція. Для рівняння Беллмана цим розв'язком є функція цінності, для якої й було сформульовано рівняння;
- Рекурсивна форма означає, що значення у поточному стані виражається через значення у майбутніх станах.
Коротко, розв'язання рівняння Беллмана дає шукану функцію цінності, а виведення цього рівняння вимагає визначення рекурсивного зв'язку між поточними та майбутніми станами.
Функція цінності стану
Для нагадування, ось функція цінності стану у компактній формі:
vπ(s)=Eπ[Gt∣St=s]Щоб отримати рівняння Беллмана для цієї функції цінності, розкриємо праву частину рівняння та встановимо рекурсивний зв'язок:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=a∑π(a∣s)s′,r∑p(s′,r∣s,a)(r+γvπ(s′))Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності стану.
Інтуїція
Щоб знайти цінність стану s, потрібно:
- Розглянути всі можливі дії a, які можна виконати з цього стану, кожна з яких зважується відповідно до ймовірності вибору цієї дії згідно з поточною політикою π(a∣s);
- Для кожної дії a розглянути всі можливі наступні стани s′ та винагороди r, зважені за їх ймовірністю p(s′,r∣s,a);
- Для кожного з цих результатів взяти негайну винагороду r, яку отримуєте, плюс дисконтовану цінність наступного стану γvπ(s′).
Підсумовуючи всі ці можливості, отримуємо загальне очікуване значення стану s згідно з поточною політикою.
Функція цінності дії
Ось функція цінності дії у компактній формі:
qπ(s,a)=Eπ[Gt∣St=s,At=a]Виведення рівняння Беллмана для цієї функції дуже схоже на попереднє:
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s,At=a]=Eπ[Rt+1+γk=0∑∞γkRt+k+2∣St=s,At=a]=Eπ[Rt+1+γGt+1∣St=s,At=a]=s′,r∑p(s′,r∣s,a)(r+γEπ[Gt+1∣St+1=s′])=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)(Eπ[Gt+1∣St+1=s′,At+1=a′]))=s′,r∑p(s′,r∣s,a)(r+γa′∑π(a′∣s′)q(s′,a′))Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності дії.
Інтуїція
Щоб знайти значення пари стан-дія (s,a), потрібно:
- Розглянути всі можливі наступні стани s′ та винагороди r, зважені за їх ймовірністю p(s′,r∣s,a);
- Для кожного з цих результатів взяти негайну винагороду r, яку ви отримуєте, плюс дисконтоване значення наступного стану;
- Щоб обчислити значення наступного стану s′, для всіх дій a′, можливих зі стану s′, помножити значення дії q(s′,a′) на ймовірність вибору a′ у стані s′ згідно з поточною політикою π(a′∣s′). Потім підсумувати все, щоб отримати кінцеве значення.
Підсумовуючи всі ці можливості, ви отримуєте загальне очікуване значення пари стан-дія (s,a) згідно з вашою поточною політикою.
Дякуємо за ваш відгук!