Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Модель, Політика та Значення | Основна Теорія Навчання з Підкріпленням
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Модель, Політика та Значення

Модель

Note
Визначення

Модель — це представлення середовища, яке визначає ймовірності переходів між станами та очікувані винагороди за виконані дії.

Алгоритми навчання з підкріпленням можна поділити на дві категорії:

  • Модель-орієнтовані: у цьому підході агент навчається або має доступ до моделі середовища, що дозволяє йому імітувати майбутні стани та винагороди перед виконанням дій. Це дає змогу агенту планувати та приймати більш обґрунтовані рішення;
  • Безмодельні: у цьому підході агент не має прямої моделі середовища. Він навчається виключно через взаємодію із середовищем, покладаючись на метод спроб і помилок для знаходження найкращих дій.

На практиці середовища з явними моделями зустрічаються рідко, що ускладнює використання агентами модель-орієнтованих стратегій. У результаті безмодельні підходи стали більш поширеними та активно досліджуються у сфері навчання з підкріпленням і його застосуваннях.

Політика

Note
Визначення

Політика π\pi — це стратегія, якої дотримується агент для вибору своїх дій на основі поточного стану середовища.

Існує два типи політик:

  • Детермінована політика: агент завжди обирає одну й ту ж дію для заданого стану;
  • Стохастична політика: агент обирає дії на основі ймовірнісних розподілів.

Під час процесу навчання метою агента є знаходження оптимальної політики. Оптимальна політика — це така, що максимізує очікувану винагороду, спрямовуючи агента до прийняття найкращих можливих рішень у будь-якому заданому стані.

Функції цінності

Функції цінності є ключовими для розуміння того, як агент оцінює потенціал певного стану або пари стан-дія. Вони використовуються для оцінки майбутніх очікуваних винагород, допомагаючи агентові приймати обґрунтовані рішення.

Функція цінності стану

Note
Визначення

Функція цінності стану VV (або vv) — це функція, яка визначає очікувану винагороду перебування в певному стані та дотримання заданої політики. Вона допомагає оцінити привабливість станів.

Значення стану можна математично виразити так:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Функція цінності стану-дії

Note
Визначення

Функція цінності стану-дії QQ (або qq) — це функція, яка визначає очікувану винагороду за виконання певної дії у заданому стані та подальше дотримання конкретної політики. Вона допомагає оцінити доцільність дій у станах.

Функція цінності стану-дії часто називається функцією цінності дії.

Значення дії можна виразити математично так:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Взаємозв'язок між моделлю, політикою та функціями цінності

Поняття моделі, політики та функцій цінності тісно пов'язані між собою, утворюючи комплексну структуру для класифікації алгоритмів навчання з підкріпленням. Ця структура визначається двома основними осями:

  • Ціль навчання: ця вісь відображає спектр алгоритмів RL залежно від їхньої орієнтації на функції цінності, політики або їхню комбінацію;
  • Застосування моделі: ця вісь розрізняє алгоритми залежно від того, чи використовують вони модель середовища, чи навчаються виключно через взаємодію.

Комбінуючи ці виміри, можна класифікувати алгоритми RL на окремі категорії, кожна з яких має власні характеристики та ідеальні сфери застосування. Розуміння цих взаємозв'язків допомагає обирати відповідний алгоритм для конкретних завдань, забезпечуючи ефективне навчання та прийняття рішень.

question-icon

Заповніть пропуски

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Натисніть або перетягніть елементи та заповніть пропуски

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Модель, Політика та Значення

Модель

Note
Визначення

Модель — це представлення середовища, яке визначає ймовірності переходів між станами та очікувані винагороди за виконані дії.

Алгоритми навчання з підкріпленням можна поділити на дві категорії:

  • Модель-орієнтовані: у цьому підході агент навчається або має доступ до моделі середовища, що дозволяє йому імітувати майбутні стани та винагороди перед виконанням дій. Це дає змогу агенту планувати та приймати більш обґрунтовані рішення;
  • Безмодельні: у цьому підході агент не має прямої моделі середовища. Він навчається виключно через взаємодію із середовищем, покладаючись на метод спроб і помилок для знаходження найкращих дій.

На практиці середовища з явними моделями зустрічаються рідко, що ускладнює використання агентами модель-орієнтованих стратегій. У результаті безмодельні підходи стали більш поширеними та активно досліджуються у сфері навчання з підкріпленням і його застосуваннях.

Політика

Note
Визначення

Політика π\pi — це стратегія, якої дотримується агент для вибору своїх дій на основі поточного стану середовища.

Існує два типи політик:

  • Детермінована політика: агент завжди обирає одну й ту ж дію для заданого стану;
  • Стохастична політика: агент обирає дії на основі ймовірнісних розподілів.

Під час процесу навчання метою агента є знаходження оптимальної політики. Оптимальна політика — це така, що максимізує очікувану винагороду, спрямовуючи агента до прийняття найкращих можливих рішень у будь-якому заданому стані.

Функції цінності

Функції цінності є ключовими для розуміння того, як агент оцінює потенціал певного стану або пари стан-дія. Вони використовуються для оцінки майбутніх очікуваних винагород, допомагаючи агентові приймати обґрунтовані рішення.

Функція цінності стану

Note
Визначення

Функція цінності стану VV (або vv) — це функція, яка визначає очікувану винагороду перебування в певному стані та дотримання заданої політики. Вона допомагає оцінити привабливість станів.

Значення стану можна математично виразити так:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Функція цінності стану-дії

Note
Визначення

Функція цінності стану-дії QQ (або qq) — це функція, яка визначає очікувану винагороду за виконання певної дії у заданому стані та подальше дотримання конкретної політики. Вона допомагає оцінити доцільність дій у станах.

Функція цінності стану-дії часто називається функцією цінності дії.

Значення дії можна виразити математично так:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Взаємозв'язок між моделлю, політикою та функціями цінності

Поняття моделі, політики та функцій цінності тісно пов'язані між собою, утворюючи комплексну структуру для класифікації алгоритмів навчання з підкріпленням. Ця структура визначається двома основними осями:

  • Ціль навчання: ця вісь відображає спектр алгоритмів RL залежно від їхньої орієнтації на функції цінності, політики або їхню комбінацію;
  • Застосування моделі: ця вісь розрізняє алгоритми залежно від того, чи використовують вони модель середовища, чи навчаються виключно через взаємодію.

Комбінуючи ці виміри, можна класифікувати алгоритми RL на окремі категорії, кожна з яких має власні характеристики та ідеальні сфери застосування. Розуміння цих взаємозв'язків допомагає обирати відповідний алгоритм для конкретних завдань, забезпечуючи ефективне навчання та прийняття рішень.

question-icon

Заповніть пропуски

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Натисніть або перетягніть елементи та заповніть пропуски

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 5
some-alt