Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Підходи до Дослідження | Методи Монте-Карло
Вступ до навчання з підкріпленням
course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Підходи до Дослідження

Припущення випадкових стартів є корисним для забезпечення того, щоб усі стани (пари стан-дія) були відвідані з часом. Однак у більшості реальних завдань воно має суттєвий недолік: воно вимагає наявності моделі для ініціалізації агента в довільних станах.

У рідкісних випадках — коли середовище природно починає епізоди з випадкових станів, що охоплюють весь простір станів — випадкові старти можна застосовувати без проблем. Але частіше за все завдання мають фіксований або обмежений набір початкових станів, що робить таку рандомізацію неможливою без часткової моделі. Ця модель повинна принаймні бути здатною імітувати один крок середовища з будь-якого стану. Хоча це все ще менш вимогливо, ніж потреба у повній моделі, на практиці це часто є недосяжним.

Альтернативні підходи до дослідження

Якщо починати з випадкового стану (пари стан-дія) неможливо, альтернативою є забезпечення того, щоб кожна дія мала ненульову ймовірність бути обраною в кожному стані. Це гарантує, що з часом агент буде досліджувати всі досяжні частини простору станів. Якщо стан може бути досягнутий через певну допустиму послідовність дій, це зрештою станеться; якщо ж його взагалі неможливо досягти за динамікою середовища, то він не має значення для процесу навчання.

Ця ідея приводить до використання стохастичних політик, коли агент не завжди обирає найкращу відому дію, а натомість вибирає дії з певною часткою випадковості. Поширеною стратегією для цього є знайома ε\varepsilon-жадібна політика, яка більшість часу обирає жадібну дію, але з ймовірністю ε\varepsilon вибирає випадкову дію. Це забезпечує постійне дослідження, водночас надаючи перевагу діям з високою цінністю.

На цьому етапі також корисно розрізняти дві основні класи методів:

  • On-policy методи оцінюють і покращують ту ж політику, яка використовується для генерації даних;
  • Off-policy методи оцінюють і покращують одну політику, а дані генерують за допомогою іншої політики.

1. У чому полягає основна проблема припущення про початок дослідження?

2. У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?

question mark

У чому полягає основна проблема припущення про початок дослідження?

Select the correct answer

question mark

У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 4

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

course content

Зміст курсу

Вступ до навчання з підкріпленням

Вступ до навчання з підкріпленням

1. Основна Теорія Навчання з Підкріпленням
2. Проблема Багаторукого Бандита
3. Динамічне Програмування
4. Методи Монте-Карло
5. Навчання з часовою різницею

book
Підходи до Дослідження

Припущення випадкових стартів є корисним для забезпечення того, щоб усі стани (пари стан-дія) були відвідані з часом. Однак у більшості реальних завдань воно має суттєвий недолік: воно вимагає наявності моделі для ініціалізації агента в довільних станах.

У рідкісних випадках — коли середовище природно починає епізоди з випадкових станів, що охоплюють весь простір станів — випадкові старти можна застосовувати без проблем. Але частіше за все завдання мають фіксований або обмежений набір початкових станів, що робить таку рандомізацію неможливою без часткової моделі. Ця модель повинна принаймні бути здатною імітувати один крок середовища з будь-якого стану. Хоча це все ще менш вимогливо, ніж потреба у повній моделі, на практиці це часто є недосяжним.

Альтернативні підходи до дослідження

Якщо починати з випадкового стану (пари стан-дія) неможливо, альтернативою є забезпечення того, щоб кожна дія мала ненульову ймовірність бути обраною в кожному стані. Це гарантує, що з часом агент буде досліджувати всі досяжні частини простору станів. Якщо стан може бути досягнутий через певну допустиму послідовність дій, це зрештою станеться; якщо ж його взагалі неможливо досягти за динамікою середовища, то він не має значення для процесу навчання.

Ця ідея приводить до використання стохастичних політик, коли агент не завжди обирає найкращу відому дію, а натомість вибирає дії з певною часткою випадковості. Поширеною стратегією для цього є знайома ε\varepsilon-жадібна політика, яка більшість часу обирає жадібну дію, але з ймовірністю ε\varepsilon вибирає випадкову дію. Це забезпечує постійне дослідження, водночас надаючи перевагу діям з високою цінністю.

На цьому етапі також корисно розрізняти дві основні класи методів:

  • On-policy методи оцінюють і покращують ту ж політику, яка використовується для генерації даних;
  • Off-policy методи оцінюють і покращують одну політику, а дані генерують за допомогою іншої політики.

1. У чому полягає основна проблема припущення про початок дослідження?

2. У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?

question mark

У чому полягає основна проблема припущення про початок дослідження?

Select the correct answer

question mark

У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 4
some-alt