Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Що таке навчання з часовою різницею?
Як динамічне програмування, так і методи Монте-Карло мають як переваги, так і суттєві недоліки.
Динамічне програмування
Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та отримувати з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.
Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:
- Потребує повної та явної моделі середовища;
- Значення станів обчислюються для кожного стану, навіть якщо стан не лежить поблизу оптимального шляху.
Метод Монте-Карло
Методи Монте-Карло усувають два недоліки динамічного програмування:
- Не потребують моделі, оскільки навчаються на основі досвіду;
- Спосіб навчання на основі досвіду обмежує дослідження, тому неважливі стани рідко відвідуються.
Однак вони вводять новий недолік — процес навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач знадобиться надзвичайно велика кількість дій до завершення епізоду.
Навчання з часовою різницею
Навчання з часовою різницею (TD-навчання) є результатом поєднання ідей як динамічного програмування, так і методів Монте-Карло. Воно використовує підхід навчання на основі досвіду з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.
У результаті TD-навчання вирішує основні проблеми обох методів:
- Навчання на основі досвіду усуває потребу в моделі та проблему великих просторових станів;
- Бутстрепінг вирішує проблему епізодичного навчання.
Як це працює?
TD-навчання працює за простим циклом:
- Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
- Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
- Оновлення оцінки: використовуючи винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
- Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.
Порівняльна таблиця
Дякуємо за ваш відгук!