Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Що таке навчання з часовою різницею? | Навчання з часовою різницею
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Що таке навчання з часовою різницею?

Як динамічне програмування, так і методи Монте-Карло мають як переваги, так і суттєві недоліки.

Динамічне програмування

Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та отримувати з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.

Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:

  • Потребує повної та явної моделі середовища;
  • Значення станів обчислюються для кожного стану, навіть якщо стан не лежить поблизу оптимального шляху.

Метод Монте-Карло

Методи Монте-Карло усувають два недоліки динамічного програмування:

  • Не потребують моделі, оскільки навчаються на основі досвіду;
  • Спосіб навчання на основі досвіду обмежує дослідження, тому неважливі стани рідко відвідуються.

Однак вони вводять новий недолік — процес навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач знадобиться надзвичайно велика кількість дій до завершення епізоду.

Навчання з часовою різницею

Note
Визначення

Навчання з часовою різницею (TD-навчання) є результатом поєднання ідей як динамічного програмування, так і методів Монте-Карло. Воно використовує підхід навчання на основі досвіду з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.

У результаті TD-навчання вирішує основні проблеми обох методів:

  • Навчання на основі досвіду усуває потребу в моделі та проблему великих просторових станів;
  • Бутстрепінг вирішує проблему епізодичного навчання.

Як це працює?

TD-навчання працює за простим циклом:

  1. Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
  2. Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
  3. Оновлення оцінки: використовуючи винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
  4. Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.

Порівняльна таблиця

question mark

Як TD-навчання поєднує переваги динамічного програмування та методів Монте-Карло?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Що таке навчання з часовою різницею?

Як динамічне програмування, так і методи Монте-Карло мають як переваги, так і суттєві недоліки.

Динамічне програмування

Динамічне програмування дозволяє ефективно обчислювати функцію цінності стану та отримувати з неї оптимальну політику. Для цього використовується бутстрепінг — обчислення цінності поточного стану на основі цінностей майбутніх станів.

Попри потужність ідеї бутстрепінгу, саме динамічне програмування має два основних недоліки:

  • Потребує повної та явної моделі середовища;
  • Значення станів обчислюються для кожного стану, навіть якщо стан не лежить поблизу оптимального шляху.

Метод Монте-Карло

Методи Монте-Карло усувають два недоліки динамічного програмування:

  • Не потребують моделі, оскільки навчаються на основі досвіду;
  • Спосіб навчання на основі досвіду обмежує дослідження, тому неважливі стани рідко відвідуються.

Однак вони вводять новий недолік — процес навчання відбувається лише після завершення епізоду. Це обмежує застосування методів Монте-Карло до невеликих епізодичних задач, оскільки для більших задач знадобиться надзвичайно велика кількість дій до завершення епізоду.

Навчання з часовою різницею

Note
Визначення

Навчання з часовою різницею (TD-навчання) є результатом поєднання ідей як динамічного програмування, так і методів Монте-Карло. Воно використовує підхід навчання на основі досвіду з методів Монте-Карло та поєднує його з бутстрепінгом з динамічного програмування.

У результаті TD-навчання вирішує основні проблеми обох методів:

  • Навчання на основі досвіду усуває потребу в моделі та проблему великих просторових станів;
  • Бутстрепінг вирішує проблему епізодичного навчання.

Як це працює?

TD-навчання працює за простим циклом:

  1. Оцінка значення: агент починає з початкового припущення щодо якості поточного стану;
  2. Виконання дії: агент виконує дію, отримує винагороду та переходить у новий стан;
  3. Оновлення оцінки: використовуючи винагороду та значення нового стану, агент трохи коригує свою початкову оцінку для підвищення її точності;
  4. Повторення: з часом, повторюючи цей цикл, агент поступово формує кращі та точніші оцінки значень для різних станів.

Порівняльна таблиця

question mark

Як TD-навчання поєднує переваги динамічного програмування та методів Монте-Карло?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 1
some-alt