Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Епізоди та Винагороди | Основна Теорія Навчання з Підкріпленням
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Епізоди та Винагороди

Тривалість завдання

Завдання у навчанні з підкріпленням (RL) зазвичай класифікуються як епізодичні або безперервні, залежно від того, як організовано процес навчання у часі.

Note
Визначення

Епізод — це повна послідовність взаємодій між агентом і середовищем, яка починається з початкового стану і проходить через низку переходів до досягнення термінального стану.

Епізодичні задачі — це задачі, які складаються з скінченної послідовності станів, дій і винагород, де взаємодія агента з середовищем поділяється на окремі епізоди.

На відміну від них, безперервні задачі не мають чіткого завершення кожного циклу взаємодії. Агент постійно взаємодіє із середовищем без повернення до початкового стану, а процес навчання триває, часто без визначеної кінцевої точки.

Повернення

Ви вже знаєте, що основна мета агента — максимізувати накопичені винагороди. Хоча функція винагороди надає миттєві винагороди, вона не враховує майбутні результати, що може бути проблематичним. Агент, навчений максимізувати лише негайні винагороди, може ігнорувати довгострокові переваги. Щоб вирішити цю проблему, введемо поняття повернення.

Note
Визначення

Повернення GG — це загальна накопичена винагорода, яку агент отримує, починаючи з певного стану, і яка включає всі винагороди, що будуть отримані в майбутньому, а не лише негайно.

Повернення є кращою характеристикою того, наскільки хороший певний стан або дія у довгостроковій перспективі. Мета навчання з підкріпленням полягає у максимізації повернення.

Якщо TT — це фінальний часовий крок, формула повернення виглядає так:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Дисконтуювання

Хоча простий зворотній зв'язок є хорошою ціллю для епізодичних задач, у безперервних задачах виникає проблема. Якщо кількість кроків у часі є нескінченною, сам зворотній зв'язок може стати нескінченним. Для вирішення цієї проблеми використовується дисконтуючий фактор, який забезпечує меншу вагу майбутніх винагород, запобігаючи нескінченності зворотного зв'язку.

Note
Визначення

Дисконтуючий фактор γ\gamma — це мультиплікативний коефіцієнт, який використовується для визначення поточної вартості майбутніх винагород. Його значення знаходиться в межах від 0 до 1: чим ближче до 0, тим більше агент віддає перевагу негайним винагородам; чим ближче до 1, тим більше агент враховує майбутні винагороди.

Повернення у поєднанні з коефіцієнтом дисконтування називається дисконтованим поверненням.

Формула дисконтованого повернення виглядає так:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Вивчіть більше

Навіть у епізодичних завданнях використання коефіцієнта дисконтування має практичні переваги: це мотивує агента досягати мети якомога швидше, що призводить до більш ефективної поведінки. З цієї причини дисконтування часто застосовується навіть у явно епізодичних сценаріях.

question mark

Що означає коефіцієнт дисконту γ\gamma?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 4

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Епізоди та Винагороди

Тривалість завдання

Завдання у навчанні з підкріпленням (RL) зазвичай класифікуються як епізодичні або безперервні, залежно від того, як організовано процес навчання у часі.

Note
Визначення

Епізод — це повна послідовність взаємодій між агентом і середовищем, яка починається з початкового стану і проходить через низку переходів до досягнення термінального стану.

Епізодичні задачі — це задачі, які складаються з скінченної послідовності станів, дій і винагород, де взаємодія агента з середовищем поділяється на окремі епізоди.

На відміну від них, безперервні задачі не мають чіткого завершення кожного циклу взаємодії. Агент постійно взаємодіє із середовищем без повернення до початкового стану, а процес навчання триває, часто без визначеної кінцевої точки.

Повернення

Ви вже знаєте, що основна мета агента — максимізувати накопичені винагороди. Хоча функція винагороди надає миттєві винагороди, вона не враховує майбутні результати, що може бути проблематичним. Агент, навчений максимізувати лише негайні винагороди, може ігнорувати довгострокові переваги. Щоб вирішити цю проблему, введемо поняття повернення.

Note
Визначення

Повернення GG — це загальна накопичена винагорода, яку агент отримує, починаючи з певного стану, і яка включає всі винагороди, що будуть отримані в майбутньому, а не лише негайно.

Повернення є кращою характеристикою того, наскільки хороший певний стан або дія у довгостроковій перспективі. Мета навчання з підкріпленням полягає у максимізації повернення.

Якщо TT — це фінальний часовий крок, формула повернення виглядає так:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Дисконтуювання

Хоча простий зворотній зв'язок є хорошою ціллю для епізодичних задач, у безперервних задачах виникає проблема. Якщо кількість кроків у часі є нескінченною, сам зворотній зв'язок може стати нескінченним. Для вирішення цієї проблеми використовується дисконтуючий фактор, який забезпечує меншу вагу майбутніх винагород, запобігаючи нескінченності зворотного зв'язку.

Note
Визначення

Дисконтуючий фактор γ\gamma — це мультиплікативний коефіцієнт, який використовується для визначення поточної вартості майбутніх винагород. Його значення знаходиться в межах від 0 до 1: чим ближче до 0, тим більше агент віддає перевагу негайним винагородам; чим ближче до 1, тим більше агент враховує майбутні винагороди.

Повернення у поєднанні з коефіцієнтом дисконтування називається дисконтованим поверненням.

Формула дисконтованого повернення виглядає так:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Вивчіть більше

Навіть у епізодичних завданнях використання коефіцієнта дисконтування має практичні переваги: це мотивує агента досягати мети якомога швидше, що призводить до більш ефективної поведінки. З цієї причини дисконтування часто застосовується навіть у явно епізодичних сценаріях.

question mark

Що означає коефіцієнт дисконту γ\gamma?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 4
some-alt