Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Рівняння Беллмана
Рівняння Беллмана — це функціональне рівняння, яке визначає функцію цінності у рекурсивній формі.
Для уточнення визначення:
- Функціональне рівняння — це рівняння, розв'язком якого є функція. Для рівняння Беллмана цим розв'язком є функція цінності, для якої й було сформульовано рівняння;
- Рекурсивна форма означає, що значення у поточному стані виражається через значення у майбутніх станах.
Коротко, розв'язання рівняння Беллмана дає шукану функцію цінності, а виведення цього рівняння вимагає визначення рекурсивного зв'язку між поточними та майбутніми станами.
Функція цінності стану
Для нагадування, ось функція цінності стану у компактній формі:
Щоб отримати рівняння Беллмана для цієї функції цінності, розкриємо праву частину рівняння та встановимо рекурсивний зв'язок:
Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності стану.
Інтуїція
Щоб знайти цінність стану , потрібно:
- Розглянути всі можливі дії , які можна виконати з цього стану, кожна з яких зважується відповідно до ймовірності вибору цієї дії згідно з поточною політикою ;
- Для кожної дії розглянути всі можливі наступні стани та винагороди , зважені за їх ймовірністю ;
- Для кожного з цих результатів взяти негайну винагороду , яку отримуєте, плюс дисконтовану цінність наступного стану .
Підсумовуючи всі ці можливості, отримуємо загальне очікуване значення стану згідно з поточною політикою.
Функція цінності дії
Ось функція цінності дії у компактній формі:
Виведення рівняння Беллмана для цієї функції дуже схоже на попереднє:
Останнє рівняння в цьому ланцюжку є рівнянням Беллмана для функції цінності дії.
Інтуїція
Щоб знайти значення пари стан-дія , потрібно:
- Розглянути всі можливі наступні стани та винагороди , зважені за їх ймовірністю ;
- Для кожного з цих результатів взяти негайну винагороду , яку ви отримуєте, плюс дисконтоване значення наступного стану;
- Щоб обчислити значення наступного стану , для всіх дій , можливих зі стану , помножити значення дії на ймовірність вибору у стані згідно з поточною політикою . Потім підсумувати все, щоб отримати кінцеве значення.
Підсумовуючи всі ці можливості, ви отримуєте загальне очікуване значення пари стан-дія згідно з вашою поточною політикою.
Дякуємо за ваш відгук!