Вивчайте Узагальнення TD-Навчання | Навчання з Часовою Різницею

На даний момент ми розглядали два крайні випадки навчання на основі досвіду:

TD(0): використовує однокрокову віддачу;
Монте-Карло: чекає завершення епізоду для обчислення віддачі.

Але що, якщо нам потрібно щось посередині? Метод, який використовує більше інформації про майбутнє, ніж TD(0), але не вимагає чекати завершення всього епізоду, як Монте-Карло?

Саме тут з'являються $n$ -крокове TD-навчання та TD( $\lambda$ ) — методи, які об'єднують і узагальнюють ідеї, розглянуті раніше.

$\Large n$ -крокове TD-навчання

Ідея $n$ -крокового TD-навчання проста: замість використання лише наступного кроку або всього епізоду, ми використовуємо наступні $n$ кроків, а потім застосовуємо бутстрепінг:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Це дозволяє здійснювати компроміс:

Коли $n = 1$ : це просто TD(0);
Коли $n = \infty$ : це стає Монте-Карло.

Ці віддачі можна використовувати для заміни цільового значення у правилі оновлення TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) — це вдала ідея, що базується на $n$ -кроковому TD-навчанні: замість вибору фіксованого $n$ , об'єднуються усі $n$ -крокові повернення разом:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

де $\lambda \in [0, 1]$ визначає вагу:

Якщо $\lambda = 0$ : лише однокрокове повернення $\to$ TD(0);
Якщо $\lambda = 1$ : повне повернення $\to$ Monte Carlo;
Проміжні значення поєднують кілька крокових повернень.

Таким чином, $\lambda$ виступає як регулятор компромісу між зміщенням і дисперсією:

Низьке $\lambda$ : більше зміщення, менше дисперсії;
Високе $\lambda$ : менше зміщення, більше дисперсії.

$L_t$ може бути використано як цільове значення для оновлення у правилі TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 5. Розділ 5

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?

What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?

Can you provide an example to illustrate how n-step TD learning works?

Свайпніть щоб показати меню

На даний момент ми розглядали два крайні випадки навчання на основі досвіду:

TD(0): використовує однокрокову віддачу;
Монте-Карло: чекає завершення епізоду для обчислення віддачі.

$\Large n$ -крокове TD-навчання

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Це дозволяє здійснювати компроміс:

Коли $n = 1$ : це просто TD(0);
Коли $n = \infty$ : це стає Монте-Карло.

Ці віддачі можна використовувати для заміни цільового значення у правилі оновлення TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

де $\lambda \in [0, 1]$ визначає вагу:

Якщо $\lambda = 0$ : лише однокрокове повернення $\to$ TD(0);
Якщо $\lambda = 1$ : повне повернення $\to$ Monte Carlo;
Проміжні значення поєднують кілька крокових повернень.

Таким чином, $\lambda$ виступає як регулятор компромісу між зміщенням і дисперсією:

Низьке $\lambda$ : більше зміщення, менше дисперсії;
Високе $\lambda$ : менше зміщення, більше дисперсії.

$L_t$ може бути використано як цільове значення для оновлення у правилі TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 5. Розділ 5

Узагальнення TD-Навчання

n\Large nn-крокове TD-навчання

TD(λ\Large\lambdaλ)

Узагальнення TD-Навчання

n\Large nn-крокове TD-навчання

TD(λ\Large\lambdaλ)

$\Large n$ -крокове TD-навчання

TD( $\Large\lambda$ )

$\Large n$ -крокове TD-навчання

TD( $\Large\lambda$ )