Aprenda Generalização do Aprendizado TD | Aprendizado por Diferença Temporal

Até agora, consideramos dois casos extremos de aprendizado a partir da experiência:

TD(0): utiliza o retorno de um passo;
Monte Carlo: espera até o final do episódio para calcular o retorno.

Mas e se quisermos algo intermediário? Algo que aproveite mais informações futuras do que o TD(0), mas que não precise aguardar o episódio completo como o Monte Carlo?

É aqui que entram o aprendizado TD de $n$ passos e o TD( $\lambda$ ) — métodos que unificam e generalizam as ideias vistas até agora.

$\Large n$ -Passos TD Learning

A ideia por trás do aprendizado TD de $n$ passos é simples: em vez de usar apenas o próximo passo ou todo o episódio, utilizam-se os próximos $n$ passos, e então faz-se o bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Isso permite um equilíbrio:

Quando $n = 1$ : é simplesmente TD(0);
Quando $n = \infty$ : torna-se Monte Carlo.

Esses retornos podem então ser usados para substituir o alvo na regra de atualização do TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) é um conceito engenhoso que se baseia no aprendizado TD de $n$ passos: em vez de escolher um $n$ fixo, combinam-se todos os retornos de $n$ passos juntos:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

onde $\lambda \in [0, 1]$ controla a ponderação:

Se $\lambda = 0$ : apenas o retorno de um passo $\to$ TD(0);
Se $\lambda = 1$ : retorno completo $\to$ Monte Carlo;
Valores intermediários mesclam múltiplos retornos de passos.

Assim, $\lambda$ funciona como um ajuste de compromisso entre viés e variância:

$\lambda$ baixo: mais viés, menos variância;
$\lambda$ alto: menos viés, mais variância.

$L_t$ pode então ser usado como alvo de atualização na regra de atualização do TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 5

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to choose the best value for $$n$$ or $$\lambda$$ in practice?

What are the main advantages and disadvantages of using TD($$\lambda$$) compared to TD(0) and Monte Carlo?

Can you provide an example to illustrate how n-step TD learning works?

Deslize para mostrar o menu

Até agora, consideramos dois casos extremos de aprendizado a partir da experiência:

TD(0): utiliza o retorno de um passo;
Monte Carlo: espera até o final do episódio para calcular o retorno.

Mas e se quisermos algo intermediário? Algo que aproveite mais informações futuras do que o TD(0), mas que não precise aguardar o episódio completo como o Monte Carlo?

É aqui que entram o aprendizado TD de $n$ passos e o TD( $\lambda$ ) — métodos que unificam e generalizam as ideias vistas até agora.

$\Large n$ -Passos TD Learning

A ideia por trás do aprendizado TD de $n$ passos é simples: em vez de usar apenas o próximo passo ou todo o episódio, utilizam-se os próximos $n$ passos, e então faz-se o bootstrap:

G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+1})

Isso permite um equilíbrio:

Quando $n = 1$ : é simplesmente TD(0);
Quando $n = \infty$ : torna-se Monte Carlo.

Esses retornos podem então ser usados para substituir o alvo na regra de atualização do TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(G_t^{(n)} - V(S_t)\Bigr)

TD( $\Large\lambda$ )

TD( $\lambda$ ) é um conceito engenhoso que se baseia no aprendizado TD de $n$ passos: em vez de escolher um $n$ fixo, combinam-se todos os retornos de $n$ passos juntos:

L_t = (1 - \lambda) \sum_{n=0}^{\infty} \lambda^{n-1}G_t^{(n)}

onde $\lambda \in [0, 1]$ controla a ponderação:

Se $\lambda = 0$ : apenas o retorno de um passo $\to$ TD(0);
Se $\lambda = 1$ : retorno completo $\to$ Monte Carlo;
Valores intermediários mesclam múltiplos retornos de passos.

Assim, $\lambda$ funciona como um ajuste de compromisso entre viés e variância:

$\lambda$ baixo: mais viés, menos variância;
$\lambda$ alto: menos viés, mais variância.

$L_t$ pode então ser usado como alvo de atualização na regra de atualização do TD(0):

V(S_t) \gets V(S_t) + \alpha\Bigl(L_t - V(S_t)\Bigr)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 5

Generalização do Aprendizado TD

n\Large nn-Passos TD Learning

TD(λ\Large\lambdaλ)

Generalização do Aprendizado TD

n\Large nn-Passos TD Learning

TD(λ\Large\lambdaλ)

$\Large n$ -Passos TD Learning

TD( $\Large\lambda$ )

$\Large n$ -Passos TD Learning

TD( $\Large\lambda$ )