Епізоди та Винагороди
Тривалість завдання
Завдання у навчанні з підкріпленням (RL) зазвичай класифікуються як епізодичні або безперервні, залежно від того, як організовано процес навчання у часі.
Епізод — це повна послідовність взаємодій між агентом і середовищем, яка починається з початкового стану і проходить через низку переходів до досягнення термінального стану.
Епізодичні задачі — це задачі, які складаються з скінченної послідовності станів, дій і винагород, де взаємодія агента з середовищем поділяється на окремі епізоди.
На відміну від них, безперервні задачі не мають чіткого завершення кожного циклу взаємодії. Агент постійно взаємодіє із середовищем без повернення до початкового стану, а процес навчання триває, часто без визначеної кінцевої точки.
Повернення
Ви вже знаєте, що основна мета агента — максимізувати накопичені винагороди. Хоча функція винагороди надає миттєві винагороди, вона не враховує майбутні результати, що може бути проблематичним. Агент, навчений максимізувати лише негайні винагороди, може ігнорувати довгострокові переваги. Щоб вирішити цю проблему, введемо поняття повернення.
Повернення G — це загальна накопичена винагорода, яку агент отримує, починаючи з певного стану, що включає усі винагороди, які він отримає в майбутньому, а не лише негайно.
Повернення є кращим показником того, наскільки хороший певний стан або дія в довгостроковій перспективі. Мета навчання з підкріпленням тепер може бути визначена як максимізація повернення.
Якщо T — це фінальний крок часу, формула повернення виглядає так:
Gt=Rt+1+Rt+2+Rt+3+...+RTДисконтованість
Хоча простий повернення є хорошою ціллю в епізодичних завданнях, у безперервних завданнях виникає проблема. Якщо кількість кроків у часі є нескінченною, сам повернення може стати нескінченним. Щоб уникнути цього, використовується дисконтуючий фактор, який забезпечує меншу вагу майбутніх винагород, запобігаючи нескінченності повернення.
Дисконтуючий фактор γ — це мультиплікативний коефіцієнт, який використовується для визначення поточної вартості майбутніх винагород. Його значення лежить у межах від 0 до 1: чим ближче до 0, тим більше агент надає перевагу негайним винагородам; чим ближче до 1, тим більше агент враховує майбутні винагороди.
Повернення у поєднанні з коефіцієнтом дисконтування називається дисконтованим поверненням.
Формула дисконтованого повернення виглядає так:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Навіть у епізодичних завданнях використання коефіцієнта дисконтування має практичні переваги: це стимулює агента досягати мети якомога швидше, що призводить до більш ефективної поведінки. З цієї причини дисконтування часто застосовується навіть у явно епізодичних сценаріях.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain what the discount factor γ represents?
What are some examples of episodic and continuous tasks in real life?
Why is it important to use discounted return in reinforcement learning?
Awesome!
Completion rate improved to 2.7
Епізоди та Винагороди
Свайпніть щоб показати меню
Тривалість завдання
Завдання у навчанні з підкріпленням (RL) зазвичай класифікуються як епізодичні або безперервні, залежно від того, як організовано процес навчання у часі.
Епізод — це повна послідовність взаємодій між агентом і середовищем, яка починається з початкового стану і проходить через низку переходів до досягнення термінального стану.
Епізодичні задачі — це задачі, які складаються з скінченної послідовності станів, дій і винагород, де взаємодія агента з середовищем поділяється на окремі епізоди.
На відміну від них, безперервні задачі не мають чіткого завершення кожного циклу взаємодії. Агент постійно взаємодіє із середовищем без повернення до початкового стану, а процес навчання триває, часто без визначеної кінцевої точки.
Повернення
Ви вже знаєте, що основна мета агента — максимізувати накопичені винагороди. Хоча функція винагороди надає миттєві винагороди, вона не враховує майбутні результати, що може бути проблематичним. Агент, навчений максимізувати лише негайні винагороди, може ігнорувати довгострокові переваги. Щоб вирішити цю проблему, введемо поняття повернення.
Повернення G — це загальна накопичена винагорода, яку агент отримує, починаючи з певного стану, що включає усі винагороди, які він отримає в майбутньому, а не лише негайно.
Повернення є кращим показником того, наскільки хороший певний стан або дія в довгостроковій перспективі. Мета навчання з підкріпленням тепер може бути визначена як максимізація повернення.
Якщо T — це фінальний крок часу, формула повернення виглядає так:
Gt=Rt+1+Rt+2+Rt+3+...+RTДисконтованість
Хоча простий повернення є хорошою ціллю в епізодичних завданнях, у безперервних завданнях виникає проблема. Якщо кількість кроків у часі є нескінченною, сам повернення може стати нескінченним. Щоб уникнути цього, використовується дисконтуючий фактор, який забезпечує меншу вагу майбутніх винагород, запобігаючи нескінченності повернення.
Дисконтуючий фактор γ — це мультиплікативний коефіцієнт, який використовується для визначення поточної вартості майбутніх винагород. Його значення лежить у межах від 0 до 1: чим ближче до 0, тим більше агент надає перевагу негайним винагородам; чим ближче до 1, тим більше агент враховує майбутні винагороди.
Повернення у поєднанні з коефіцієнтом дисконтування називається дисконтованим поверненням.
Формула дисконтованого повернення виглядає так:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Навіть у епізодичних завданнях використання коефіцієнта дисконтування має практичні переваги: це стимулює агента досягати мети якомога швидше, що призводить до більш ефективної поведінки. З цієї причини дисконтування часто застосовується навіть у явно епізодичних сценаріях.
Дякуємо за ваш відгук!