Вивчайте Модель, Політика та Значення | Основна Теорія Підкріплювального Навчання

Модель

Визначення

Модель — це представлення середовища, яке визначає ймовірності переходів між станами та очікувані винагороди за виконані дії.

Алгоритми навчання з підкріпленням поділяються на дві категорії:

Моделлюючі (model-based): у цьому підході агент навчається або має доступ до моделі середовища, що дозволяє йому імітувати майбутні стани та винагороди перед виконанням дій. Це дає змогу агенту планувати та приймати більш обґрунтовані рішення;
Безмоделлюючі (model-free): у цьому підході агент не має прямої моделі середовища. Він навчається виключно через взаємодію із середовищем, покладаючись на метод проб і помилок для знаходження найкращих дій.

На практиці середовища з явними моделями зустрічаються рідко, що ускладнює використання агентами моделлюючих стратегій. У результаті безмоделлюючі підходи стали більш поширеними та активно досліджуються у сфері навчання з підкріпленням і його застосуваннях.

Політика

Визначення

Політика $\pi$ — це стратегія, якої дотримується агент для вибору своїх дій на основі поточного стану середовища.

Існує два типи політик:

Детерміністична політика: агент завжди обирає одну й ту саму дію для заданого стану;
Стохастична політика: агент обирає дії на основі ймовірнісних розподілів.

Під час процесу навчання метою агента є знаходження оптимальної політики. Оптимальна політика — це така, що максимізує очікувану винагороду, спрямовуючи агента до прийняття найкращих можливих рішень у будь-якому заданому стані.

Функції цінності

Функції цінності є ключовими для розуміння того, як агент оцінює потенціал певного стану або пари стан-дія. Вони використовуються для оцінки майбутніх очікуваних винагород, допомагаючи агентові приймати обґрунтовані рішення.

Функція цінності стану

Визначення

Функція цінності стану $V$ (або $v$ ) — це функція, яка визначає очікувану винагороду перебування в певному стані та дотримання заданої політики. Вона допомагає оцінити привабливість станів.

Значення стану можна математично виразити так:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Функція цінності стану-дії

Визначення

Функція цінності стану-дії $Q$ (або $q$ ) — це функція, яка визначає очікувану винагороду за виконання певної дії у заданому стані та подальше дотримання конкретної політики. Вона допомагає оцінити доцільність дій у станах.

Функція цінності стану-дії часто називається функцією цінності дії.

Значення дії можна виразити математично так:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Взаємозв'язок між моделлю, політикою та функціями цінності

Поняття моделі, політики та функцій цінності тісно пов'язані між собою, утворюючи цілісну структуру для класифікації алгоритмів навчання з підкріпленням. Ця структура визначається двома основними осями:

Ціль навчання: ця вісь відображає спектр алгоритмів навчання з підкріпленням залежно від їхньої орієнтації на функції цінності, політики або їхню комбінацію;
Застосування моделі: ця вісь розрізняє алгоритми залежно від того, чи використовують вони модель середовища, чи навчаються виключно через взаємодію.

Комбінуючи ці виміри, можна класифікувати алгоритми навчання з підкріпленням на окремі категорії, кожна з яких має свої особливості та ідеальні сфери застосування. Розуміння цих взаємозв'язків допомагає обирати відповідний алгоритм для конкретних завдань, забезпечуючи ефективне навчання та прийняття рішень.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 5

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Свайпніть щоб показати меню

Модель

Визначення

Алгоритми навчання з підкріпленням поділяються на дві категорії:

Моделлюючі (model-based): у цьому підході агент навчається або має доступ до моделі середовища, що дозволяє йому імітувати майбутні стани та винагороди перед виконанням дій. Це дає змогу агенту планувати та приймати більш обґрунтовані рішення;
Безмоделлюючі (model-free): у цьому підході агент не має прямої моделі середовища. Він навчається виключно через взаємодію із середовищем, покладаючись на метод проб і помилок для знаходження найкращих дій.

Політика

Визначення

Існує два типи політик:

Детерміністична політика: агент завжди обирає одну й ту саму дію для заданого стану;
Стохастична політика: агент обирає дії на основі ймовірнісних розподілів.

Функції цінності

Функція цінності стану

Визначення

Значення стану можна математично виразити так:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Функція цінності стану-дії

Визначення

Функція цінності стану-дії часто називається функцією цінності дії.

Значення дії можна виразити математично так:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Взаємозв'язок між моделлю, політикою та функціями цінності

Ціль навчання: ця вісь відображає спектр алгоритмів навчання з підкріпленням залежно від їхньої орієнтації на функції цінності, політики або їхню комбінацію;
Застосування моделі: ця вісь розрізняє алгоритми залежно від того, чи використовують вони модель середовища, чи навчаються виключно через взаємодію.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 5