Що Таке Навчання з Часовою Різницею?
Як динамічне програмування, так і методи Монте-Карло мають як значні переваги, так і суттєві недоліки.
Динамічне програмування
Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та виводити з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.
Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:
- Потребує повної та явної моделі середовища;
- Цінності станів обчислюються для кожного стану, навіть якщо стан не належить до оптимального шляху.
Метод Монте-Карло
Методи Монте-Карло усувають два недоліки динамічного програмування:
- Не потребують моделі, оскільки навчаються на основі досвіду;
- Особливості навчання на досвіді обмежують дослідження, тому неважливі стани рідко відвідуються.
Однак вони мають новий недолік — навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач потрібно надзвичайно велика кількість дій до завершення епізоду.
Навчання з часовою різницею
Навчання з часовою різницею (TD) є результатом поєднання ідей як з динамічного програмування, так і з методів Монте-Карло. Воно використовує підхід навчання на досвіді з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.
У результаті навчання з часовою різницею вирішує основні проблеми обох методів:
- Навчання на досвіді вирішує проблему необхідності моделі та проблему великих просторів станів;
- Бутстрепінг вирішує проблему епізодичного навчання.
Як це працює?
TD-навчання працює за простим циклом:
- Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
- Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
- Оновлення оцінки: використовуючи отриману винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
- Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.
Порівняльна таблиця
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Що Таке Навчання з Часовою Різницею?
Свайпніть щоб показати меню
Як динамічне програмування, так і методи Монте-Карло мають як значні переваги, так і суттєві недоліки.
Динамічне програмування
Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та виводити з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.
Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:
- Потребує повної та явної моделі середовища;
- Цінності станів обчислюються для кожного стану, навіть якщо стан не належить до оптимального шляху.
Метод Монте-Карло
Методи Монте-Карло усувають два недоліки динамічного програмування:
- Не потребують моделі, оскільки навчаються на основі досвіду;
- Особливості навчання на досвіді обмежують дослідження, тому неважливі стани рідко відвідуються.
Однак вони мають новий недолік — навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач потрібно надзвичайно велика кількість дій до завершення епізоду.
Навчання з часовою різницею
Навчання з часовою різницею (TD) є результатом поєднання ідей як з динамічного програмування, так і з методів Монте-Карло. Воно використовує підхід навчання на досвіді з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.
У результаті навчання з часовою різницею вирішує основні проблеми обох методів:
- Навчання на досвіді вирішує проблему необхідності моделі та проблему великих просторів станів;
- Бутстрепінг вирішує проблему епізодичного навчання.
Як це працює?
TD-навчання працює за простим циклом:
- Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
- Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
- Оновлення оцінки: використовуючи отриману винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
- Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.
Порівняльна таблиця
Дякуємо за ваш відгук!