Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Марковський процес прийняття рішень | Основна Теорія Навчання з Підкріпленням
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Марковський процес прийняття рішень

Note
Визначення

Марковський процес прийняття рішень (MDP) — це математична модель, яка використовується для опису задач прийняття рішень, де агент взаємодіє з середовищем протягом часу.

Задачі навчання з підкріпленням часто формулюються як MDP, що забезпечує структурований спосіб визначення задачі. MDP описує середовище за допомогою чотирьох ключових компонентів: стани, дії, переходи та винагороди. Ці компоненти взаємодіють відповідно до властивості Маркова, яка гарантує, що майбутній стан залежить лише від поточного стану та дії, а не від попередніх станів.

Чотири компоненти

Стан

Note
Визначення

Стан ss — це відображення середовища у певний момент часу. Множина всіх можливих станів називається простором станів SS.

Стан зазвичай представляється набором параметрів, які відображають релевантні характеристики середовища. Ці параметри можуть включати різні аспекти, такі як положення, швидкість, обертання тощо.

Дія

Note
Визначення

Дія aa — це рішення або крок, який агент здійснює для впливу на середовище. Множина всіх можливих дій називається простором дій AA.

Множина можливих дій зазвичай залежить від поточного стану.

Перехід

Note
Визначення

Перехід описує, як стан середовища змінюється у відповідь на дію агента. Функція переходу pp визначає ймовірність переходу з одного стану в інший за заданої дії.

У багатьох випадках середовища можуть бути або детермінованими, або стохастичними, тобто перехід може бути передбачуваним або містити певний ступінь випадковості.

Винагорода

Note
Визначення

Винагорода rr — це числове значення, яке отримує агент після виконання дії в певному стані. Функція, що відображає переходи у очікувані винагороди, називається функцією винагороди RR.

Винагороди спрямовують агента до бажаної поведінки та можуть бути як позитивними, так і негативними. Інженерія винагород є складною, оскільки агент може намагатися зловживати винагородами.

Властивість Маркова

Властивість Маркова у марковському процесі прийняття рішень означає, що наступний стан і винагорода залежать лише від поточного стану та дії, а не від попередньої інформації. Це забезпечує безпам'ятний підхід, що спрощує процес навчання.

Математично цю властивість можна описати такою формулою:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

де:

  • StS_t — стан у момент часу tt;
  • AtA_t — дія, виконана у момент часу tt;
  • RtR_t — винагорода у момент часу tt.
Note
Примітка

Безпам'ятний характер MDP не означає, що попередні спостереження ігноруються. Поточний стан повинен містити всю релевантну історичну інформацію.

question mark

Уявіть, що агент грає у гру. Яке з наведеного є гарним представленням стану середовища в MDP?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 3

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Марковський процес прийняття рішень

Note
Визначення

Марковський процес прийняття рішень (MDP) — це математична модель, яка використовується для опису задач прийняття рішень, де агент взаємодіє з середовищем протягом часу.

Задачі навчання з підкріпленням часто формулюються як MDP, що забезпечує структурований спосіб визначення задачі. MDP описує середовище за допомогою чотирьох ключових компонентів: стани, дії, переходи та винагороди. Ці компоненти взаємодіють відповідно до властивості Маркова, яка гарантує, що майбутній стан залежить лише від поточного стану та дії, а не від попередніх станів.

Чотири компоненти

Стан

Note
Визначення

Стан ss — це відображення середовища у певний момент часу. Множина всіх можливих станів називається простором станів SS.

Стан зазвичай представляється набором параметрів, які відображають релевантні характеристики середовища. Ці параметри можуть включати різні аспекти, такі як положення, швидкість, обертання тощо.

Дія

Note
Визначення

Дія aa — це рішення або крок, який агент здійснює для впливу на середовище. Множина всіх можливих дій називається простором дій AA.

Множина можливих дій зазвичай залежить від поточного стану.

Перехід

Note
Визначення

Перехід описує, як стан середовища змінюється у відповідь на дію агента. Функція переходу pp визначає ймовірність переходу з одного стану в інший за заданої дії.

У багатьох випадках середовища можуть бути або детермінованими, або стохастичними, тобто перехід може бути передбачуваним або містити певний ступінь випадковості.

Винагорода

Note
Визначення

Винагорода rr — це числове значення, яке отримує агент після виконання дії в певному стані. Функція, що відображає переходи у очікувані винагороди, називається функцією винагороди RR.

Винагороди спрямовують агента до бажаної поведінки та можуть бути як позитивними, так і негативними. Інженерія винагород є складною, оскільки агент може намагатися зловживати винагородами.

Властивість Маркова

Властивість Маркова у марковському процесі прийняття рішень означає, що наступний стан і винагорода залежать лише від поточного стану та дії, а не від попередньої інформації. Це забезпечує безпам'ятний підхід, що спрощує процес навчання.

Математично цю властивість можна описати такою формулою:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

де:

  • StS_t — стан у момент часу tt;
  • AtA_t — дія, виконана у момент часу tt;
  • RtR_t — винагорода у момент часу tt.
Note
Примітка

Безпам'ятний характер MDP не означає, що попередні спостереження ігноруються. Поточний стан повинен містити всю релевантну історичну інформацію.

question mark

Уявіть, що агент грає у гру. Яке з наведеного є гарним представленням стану середовища в MDP?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 3
some-alt