Зміст курсу
Вступ до навчання з підкріпленням
Вступ до навчання з підкріпленням
Узагальнення TD-Навчання
На даний момент ми розглядали два крайні випадки навчання на досвіді:
- TD(0): використовує однокрокову оцінку повернення;
- Монте-Карло: чекає завершення епізоду для обчислення повернення.
Але що, якщо нам потрібно щось посередині? Метод, який враховує більше інформації про майбутнє, ніж TD(0), але не вимагає чекати завершення всього епізоду, як Монте-Карло?
Саме тут з'являються -крокове TD-навчання та TD() — методи, які об'єднують і узагальнюють ідеї, розглянуті раніше.
-крокове TD-навчання
Ідея -крокового TD-навчання проста: замість використання лише наступного кроку або всього епізоду, ми використовуємо наступні кроків, а потім застосовуємо бутстрепінг:
Це дозволяє налаштовувати компроміс:
- Якщо : це просто TD(0);
- Якщо : це стає Монте-Карло.
Ці повернення можна використовувати для заміни цільового значення у правилі оновлення TD(0):
TD()
TD() — це вдала ідея, що базується на -кроковому TD-навчанні: замість вибору фіксованого , ми об'єднуємо усі -крокові повернення разом:
де визначає вагу:
- Якщо : лише одно-крокове повернення TD(0);
- Якщо : повне повернення Monte Carlo;
- Проміжні значення поєднують кілька крокових повернень.
Таким чином, виступає як регулятор компромісу між зміщенням і дисперсією:
- Низьке : більше зміщення, менше дисперсії;
- Високе : менше зміщення, більше дисперсії.
потім може використовуватися як цільове значення для оновлення у правилі TD(0):
Дякуємо за ваш відгук!