Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Марковський процес прийняття рішень
Марковський процес прийняття рішень (MDP) — це математична модель, яка використовується для опису задач прийняття рішень, де агент взаємодіє з середовищем протягом часу.
Задачі навчання з підкріпленням часто формулюються як MDP, що забезпечує структурований спосіб визначення задачі. MDP описує середовище за допомогою чотирьох ключових компонентів: стани, дії, переходи та винагороди. Ці компоненти взаємодіють відповідно до властивості Маркова, яка гарантує, що майбутній стан залежить лише від поточного стану та дії, а не від попередніх станів.
Чотири компоненти
Стан
Стан — це відображення середовища у певний момент часу. Множина всіх можливих станів називається простором станів .
Стан зазвичай представляється набором параметрів, які відображають релевантні характеристики середовища. Ці параметри можуть включати різні аспекти, такі як положення, швидкість, обертання тощо.
Дія
Дія — це рішення або крок, який агент здійснює для впливу на середовище. Множина всіх можливих дій називається простором дій .
Множина можливих дій зазвичай залежить від поточного стану.
Перехід
Перехід описує, як стан середовища змінюється у відповідь на дію агента. Функція переходу визначає ймовірність переходу з одного стану в інший за заданої дії.
У багатьох випадках середовища можуть бути або детермінованими, або стохастичними, тобто перехід може бути передбачуваним або містити певний ступінь випадковості.
Винагорода
Винагорода — це числове значення, яке отримує агент після виконання дії в певному стані. Функція, що відображає переходи у очікувані винагороди, називається функцією винагороди .
Винагороди спрямовують агента до бажаної поведінки та можуть бути як позитивними, так і негативними. Інженерія винагород є складною, оскільки агент може намагатися зловживати винагородами.
Властивість Маркова
Властивість Маркова у марковському процесі прийняття рішень означає, що наступний стан і винагорода залежать лише від поточного стану та дії, а не від попередньої інформації. Це забезпечує безпам'ятний підхід, що спрощує процес навчання.
Математично цю властивість можна описати такою формулою:
де:
- — стан у момент часу ;
- — дія, виконана у момент часу ;
- — винагорода у момент часу .
Безпам'ятний характер MDP не означає, що попередні спостереження ігноруються. Поточний стан повинен містити всю релевантну історичну інформацію.
Дякуємо за ваш відгук!