Вивчайте Підходи до Дослідження

Припущення exploring starts є корисним для забезпечення того, щоб усі стани (пари стан-дія) були відвідані з часом. Однак у більшості реальних завдань воно має суттєвий недолік: воно вимагає наявності моделі для ініціалізації агента в довільних станах.

У рідкісних випадках — коли середовище природно починає епізоди з випадкових станів, що охоплюють увесь простір станів — exploring starts можна застосовувати без проблем. Але частіше за все завдання мають фіксований або обмежений набір початкових станів, що робить таку рандомізацію неможливою без часткової моделі. Така модель повинна принаймні бути здатною імітувати один крок середовища з будь-якого стану. Хоча це все ще менш вимогливо, ніж потреба у повній моделі, це часто є непрактичним.

Альтернативні підходи до дослідження

Якщо починати з випадкового стану (пари стан-дія) неможливо, альтернативою є забезпечення того, щоб кожна дія мала ненульову ймовірність бути обраною в кожному стані. Це гарантує, що з часом агент буде досліджувати всі досяжні частини простору станів. Якщо стан може бути досягнутий через певну допустиму послідовність дій, це зрештою станеться; якщо ж його взагалі неможливо досягти згідно з динамікою середовища, то він не має значення для процесу навчання.

Ця ідея призводить до використання стохастичних політик, коли агент не завжди обирає найкращу відому дію, а натомість вибирає дії з певною часткою випадковості. Поширеною стратегією для цього є знайома $\varepsilon$ -жадібна політика, яка обирає жадібну дію більшість часу, але з ймовірністю $\varepsilon$ вибирає випадкову дію. Це забезпечує постійне дослідження, водночас віддаючи перевагу діям з високою цінністю.

На цьому етапі також корисно розрізняти дві основні класи методів:

On-policy методи оцінюють і покращують ту ж політику, яка використовується для генерації даних;
Off-policy методи оцінюють і покращують одну політику, а дані генерують за допомогою іншої політики.

1. У чому основна проблема припущення про довільний старт?

2. У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?

У чому різниця між on-policy та off-policy методами в навчанні з підкріпленням?

Select the correct answer

On-policy методи оцінюють і покращують ту ж політику, яка використовується для генерації даних.

Off-policy методи оцінюють і покращують одну політику, а дані генерують за допомогою іншої політики.

Off-policy методи оцінюють і покращують ту ж політику, яка використовується для генерації даних.

On-policy методи оцінюють і покращують одну політику, а дані генерують за допомогою іншої політики.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 4. Розділ 4

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods in more detail?

How does the ε-greedy policy work in practice?

What are some other exploration strategies besides ε-greedy?

Свайпніть щоб показати меню