Вивчайте Марковський процес прийняття рішень | Основна Теорія Підкріплювального Навчання

Визначення

Марковський процес прийняття рішень (MDP) — це математична структура, що використовується для моделювання задач прийняття рішень, у яких агент взаємодіє із середовищем протягом часу.

Задачі навчання з підкріпленням часто формулюються як MDP, що забезпечує структурований спосіб визначення проблеми. MDP описує середовище за допомогою чотирьох ключових компонентів: стани, дії, переходи та винагороди. Ці компоненти взаємодіють відповідно до властивості Маркова, яка гарантує, що майбутній стан залежить лише від поточного стану та дії, а не від попередніх станів.

Чотири компоненти

Стан

Визначення

Стан $s$ — це відображення середовища в певний момент часу. Множина всіх можливих станів називається простором станів $S$ .

Стан зазвичай представляється набором параметрів, які відображають релевантні характеристики середовища. Ці параметри можуть включати різні аспекти, такі як положення, швидкість, обертання тощо.

Дія

Визначення

Дія $a$ — це рішення або крок, який агент здійснює для впливу на середовище. Множина всіх можливих дій називається простором дій $A$ .

Множина можливих дій зазвичай залежить від поточного стану.

Перехід

Визначення

Перехід описує, як стан середовища змінюється у відповідь на дію агента. Функція переходу $p$ визначає ймовірність переходу з одного стану в інший за заданої дії.

У багатьох випадках середовища можуть бути або детермінованими, або стохастичними, тобто перехід може бути передбачуваним або містити певний ступінь випадковості.

Винагорода

Визначення

Винагорода $r$ — це числове значення, яке отримує агент після виконання дії у певному стані. Функція, що відображає переходи у очікувані винагороди, називається функцією винагороди $R$ .

Винагороди спрямовують агента до бажаної поведінки та можуть бути як позитивними, так і негативними. Проєктування винагород є складним, оскільки агент може намагатися зловживати винагородами.

Властивість Маркова

Властивість Маркова у марковському процесі прийняття рішень означає, що наступний стан і винагорода залежать лише від поточного стану та дії, а не від попередньої інформації. Це забезпечує безпам'ятний підхід, що спрощує процес навчання.

Математично ця властивість описується наступною формулою:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

де:

$S_t$ — стан у момент часу $t$ ;
$A_t$ — дія, виконана у момент часу $t$ ;
$R_t$ — винагорода у момент часу $t$ .

Примітка

Безпам'ятний характер MDP не означає, що попередні спостереження ігноруються. Поточний стан має містити всю релевантну історичну інформацію.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 3

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain more about how the Markov property simplifies reinforcement learning?

What are some examples of states, actions, transitions, and rewards in real-world problems?

How does reward engineering impact the behavior of reinforcement learning agents?

Awesome!

Completion rate improved to 2.7

Свайпніть щоб показати меню

Визначення

Чотири компоненти

Стан

Визначення

Дія

Визначення

Множина можливих дій зазвичай залежить від поточного стану.

Перехід

Визначення

Винагорода

Визначення

Властивість Маркова

Математично ця властивість описується наступною формулою:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

де:

$S_t$ — стан у момент часу $t$ ;
$A_t$ — дія, виконана у момент часу $t$ ;
$R_t$ — винагорода у момент часу $t$ .

Примітка

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 3