Що таке навчання з часовою різницею?
Як динамічне програмування, так і методи Монте-Карло мають як переваги, так і суттєві недоліки.
Динамічне програмування
Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та отримувати з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.
Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:
- Потребує повної та явної моделі середовища;
- Значення станів обчислюються для кожного стану, навіть якщо стан не лежить поблизу оптимального шляху.
Метод Монте-Карло
Методи Монте-Карло усувають два недоліки динамічного програмування:
- Не потребують моделі, оскільки навчаються на основі досвіду;
- Спосіб навчання на основі досвіду обмежує дослідження, тому неважливі стани рідко відвідуються.
Однак вони вводять новий недолік — процес навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач знадобиться надзвичайно велика кількість дій до завершення епізоду.
Навчання з часовою різницею
Навчання з часовою різницею (TD-навчання) є результатом поєднання ідей як динамічного програмування, так і методів Монте-Карло. Воно використовує підхід навчання на основі досвіду з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.
У результаті TD-навчання вирішує основні проблеми обох методів:
- Навчання на основі досвіду усуває потребу в моделі та проблему великих просторових станів;
- Бутстрепінг вирішує проблему епізодичного навчання.
Як це працює?
TD-навчання працює за простим циклом:
- Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
- Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
- Оновлення оцінки: використовуючи винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
- Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.
Порівняльна таблиця
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 2.7
Що таке навчання з часовою різницею?
Свайпніть щоб показати меню
Як динамічне програмування, так і методи Монте-Карло мають як переваги, так і суттєві недоліки.
Динамічне програмування
Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та отримувати з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.
Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:
- Потребує повної та явної моделі середовища;
- Значення станів обчислюються для кожного стану, навіть якщо стан не лежить поблизу оптимального шляху.
Метод Монте-Карло
Методи Монте-Карло усувають два недоліки динамічного програмування:
- Не потребують моделі, оскільки навчаються на основі досвіду;
- Спосіб навчання на основі досвіду обмежує дослідження, тому неважливі стани рідко відвідуються.
Однак вони вводять новий недолік — процес навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач знадобиться надзвичайно велика кількість дій до завершення епізоду.
Навчання з часовою різницею
Навчання з часовою різницею (TD-навчання) є результатом поєднання ідей як динамічного програмування, так і методів Монте-Карло. Воно використовує підхід навчання на основі досвіду з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.
У результаті TD-навчання вирішує основні проблеми обох методів:
- Навчання на основі досвіду усуває потребу в моделі та проблему великих просторових станів;
- Бутстрепінг вирішує проблему епізодичного навчання.
Як це працює?
TD-навчання працює за простим циклом:
- Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
- Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
- Оновлення оцінки: використовуючи винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
- Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.
Порівняльна таблиця
Дякуємо за ваш відгук!