Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Модель, Політика та Значення
Модель
Модель — це представлення середовища, яке визначає ймовірності переходів між станами та очікувані винагороди за виконані дії.
Алгоритми навчання з підкріпленням можна поділити на дві категорії:
- Модель-орієнтовані: у цьому підході агент навчається або має доступ до моделі середовища, що дозволяє йому імітувати майбутні стани та винагороди перед виконанням дій. Це дає змогу агенту планувати та приймати більш обґрунтовані рішення;
- Безмодельні: у цьому підході агент не має прямої моделі середовища. Він навчається виключно через взаємодію із середовищем, покладаючись на метод спроб і помилок для знаходження найкращих дій.
На практиці середовища з явними моделями зустрічаються рідко, що ускладнює використання агентами модель-орієнтованих стратегій. У результаті безмодельні підходи стали більш поширеними та активно досліджуються у сфері навчання з підкріпленням і його застосуваннях.
Політика
Політика — це стратегія, якої дотримується агент для вибору своїх дій на основі поточного стану середовища.
Існує два типи політик:
- Детермінована політика: агент завжди обирає одну й ту ж дію для заданого стану;
- Стохастична політика: агент обирає дії на основі ймовірнісних розподілів.
Під час процесу навчання метою агента є знаходження оптимальної політики. Оптимальна політика — це така, що максимізує очікувану винагороду, спрямовуючи агента до прийняття найкращих можливих рішень у будь-якому заданому стані.
Функції цінності
Функції цінності є ключовими для розуміння того, як агент оцінює потенціал певного стану або пари стан-дія. Вони використовуються для оцінки майбутніх очікуваних винагород, допомагаючи агентові приймати обґрунтовані рішення.
Функція цінності стану
Функція цінності стану (або ) — це функція, яка визначає очікувану винагороду перебування в певному стані та дотримання заданої політики. Вона допомагає оцінити привабливість станів.
Значення стану можна математично виразити так:
Функція цінності стану-дії
Функція цінності стану-дії (або ) — це функція, яка визначає очікувану винагороду за виконання певної дії у заданому стані та подальше дотримання конкретної політики. Вона допомагає оцінити доцільність дій у станах.
Функція цінності стану-дії часто називається функцією цінності дії.
Значення дії можна виразити математично так:
Взаємозв'язок між моделлю, політикою та функціями цінності
Поняття моделі, політики та функцій цінності тісно пов'язані між собою, утворюючи комплексну структуру для класифікації алгоритмів навчання з підкріпленням. Ця структура визначається двома основними осями:
- Ціль навчання: ця вісь відображає спектр алгоритмів RL залежно від їхньої орієнтації на функції цінності, політики або їхню комбінацію;
- Застосування моделі: ця вісь розрізняє алгоритми залежно від того, чи використовують вони модель середовища, чи навчаються виключно через взаємодію.
Комбінуючи ці виміри, можна класифікувати алгоритми RL на окремі категорії, кожна з яких має власні характеристики та ідеальні сфери застосування. Розуміння цих взаємозв'язків допомагає обирати відповідний алгоритм для конкретних завдань, забезпечуючи ефективне навчання та прийняття рішень.
Дякуємо за ваш відгук!