Узагальнення TD-Навчання
На даний момент ми розглядали два крайні випадки навчання з досвіду:
- TD(0): використовує однокрокову віддачу;
- Монте-Карло: очікує завершення епізоду для обчислення віддачі.
Але що робити, якщо потрібен проміжний варіант? Такий, що враховує більше інформації про майбутнє, ніж TD(0), але не вимагає чекати завершення всього епізоду, як Монте-Карло?
Саме тут з'являються n-крокове TD-навчання (n-step TD learning) та TD(λ) — методи, які об'єднують і узагальнюють ідеї, розглянуті раніше.
n-крокове TD-навчання
Ідея n-крокового TD-навчання проста: замість використання лише наступного кроку або всього епізоду, використовується наступні n кроків, а потім застосовується бутстрепінг:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Це дозволяє здійснювати компроміс:
- Якщо n=1: це просто TD(0);
- Якщо n=∞: це стає методом Монте-Карло.
Такі віддачі можна використовувати для заміни цільового значення у правилі оновлення TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) — це вдала ідея, що базується на n-кроковому TD-навчанні: замість вибору фіксованого n, ми поєднуємо усі n-крокові повернення разом:
Lt=(1−λ)n=0∑∞λn−1Gt(n)де λ∈[0,1] визначає вагу:
- Якщо λ=0: лише однокрокове повернення → TD(0);
- Якщо λ=1: повне повернення → Monte Carlo;
- Проміжні значення поєднують кілька крокових повернень.
Таким чином, λ виступає як регулятор компромісу між зміщенням і дисперсією:
- Низьке λ: більше зміщення, менше дисперсії;
- Високе λ: менше зміщення, більше дисперсії.
Lt потім може використовуватися як цільове значення для оновлення у правилі TD(0):
V(St)←V(St)+α(Lt−V(St))Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?
What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?
Can you provide an example to illustrate how n-step TD learning works?
Awesome!
Completion rate improved to 2.7
Узагальнення TD-Навчання
Свайпніть щоб показати меню
На даний момент ми розглядали два крайні випадки навчання з досвіду:
- TD(0): використовує однокрокову віддачу;
- Монте-Карло: очікує завершення епізоду для обчислення віддачі.
Але що робити, якщо потрібен проміжний варіант? Такий, що враховує більше інформації про майбутнє, ніж TD(0), але не вимагає чекати завершення всього епізоду, як Монте-Карло?
Саме тут з'являються n-крокове TD-навчання (n-step TD learning) та TD(λ) — методи, які об'єднують і узагальнюють ідеї, розглянуті раніше.
n-крокове TD-навчання
Ідея n-крокового TD-навчання проста: замість використання лише наступного кроку або всього епізоду, використовується наступні n кроків, а потім застосовується бутстрепінг:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Це дозволяє здійснювати компроміс:
- Якщо n=1: це просто TD(0);
- Якщо n=∞: це стає методом Монте-Карло.
Такі віддачі можна використовувати для заміни цільового значення у правилі оновлення TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) — це вдала ідея, що базується на n-кроковому TD-навчанні: замість вибору фіксованого n, ми поєднуємо усі n-крокові повернення разом:
Lt=(1−λ)n=0∑∞λn−1Gt(n)де λ∈[0,1] визначає вагу:
- Якщо λ=0: лише однокрокове повернення → TD(0);
- Якщо λ=1: повне повернення → Monte Carlo;
- Проміжні значення поєднують кілька крокових повернень.
Таким чином, λ виступає як регулятор компромісу між зміщенням і дисперсією:
- Низьке λ: більше зміщення, менше дисперсії;
- Високе λ: менше зміщення, більше дисперсії.
Lt потім може використовуватися як цільове значення для оновлення у правилі TD(0):
V(St)←V(St)+α(Lt−V(St))Дякуємо за ваш відгук!