Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Підходи до Дослідження
Припущення випадкових стартів є корисним для забезпечення того, щоб усі стани (пари стан-дія) були відвідані з часом. Однак у більшості реальних завдань воно має суттєвий недолік: воно вимагає наявності моделі для ініціалізації агента в довільних станах.
У рідкісних випадках — коли середовище природно починає епізоди з випадкових станів, що охоплюють весь простір станів — випадкові старти можна застосовувати без проблем. Але частіше за все завдання мають фіксований або обмежений набір початкових станів, що робить таку рандомізацію неможливою без часткової моделі. Ця модель повинна принаймні бути здатною імітувати один крок середовища з будь-якого стану. Хоча це все ще менш вимогливо, ніж потреба у повній моделі, на практиці це часто є недосяжним.
Альтернативні підходи до дослідження
Якщо починати з випадкового стану (пари стан-дія) неможливо, альтернативою є забезпечення того, щоб кожна дія мала ненульову ймовірність бути обраною в кожному стані. Це гарантує, що з часом агент буде досліджувати всі досяжні частини простору станів. Якщо стан може бути досягнутий через певну допустиму послідовність дій, це зрештою станеться; якщо ж його взагалі неможливо досягти за динамікою середовища, то він не має значення для процесу навчання.
Ця ідея приводить до використання стохастичних політик, коли агент не завжди обирає найкращу відому дію, а натомість вибирає дії з певною часткою випадковості. Поширеною стратегією для цього є знайома -жадібна політика, яка більшість часу обирає жадібну дію, але з ймовірністю вибирає випадкову дію. Це забезпечує постійне дослідження, водночас надаючи перевагу діям з високою цінністю.
На цьому етапі також корисно розрізняти дві основні класи методів:
- On-policy методи оцінюють і покращують ту ж політику, яка використовується для генерації даних;
- Off-policy методи оцінюють і покращують одну політику, а дані генерують за допомогою іншої політики.
1. У чому полягає основна проблема припущення про початок дослідження?
2. У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?
Дякуємо за ваш відгук!