Generalização do Aprendizado TD
Até agora, consideramos dois casos extremos de aprendizado a partir da experiência:
- TD(0): utiliza o retorno de um passo;
- Monte Carlo: espera até o final do episódio para calcular o retorno.
Mas e se quisermos algo intermediário? Algo que aproveite mais informações futuras do que o TD(0), mas que não precise aguardar o episódio completo como o Monte Carlo?
É aqui que entram o aprendizado TD de n passos e o TD(λ) — métodos que unificam e generalizam as ideias vistas até agora.
n-Passos TD Learning
A ideia por trás do aprendizado TD de n passos é simples: em vez de usar apenas o próximo passo ou todo o episódio, utilizamos os próximos n passos, e então fazemos o bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Isso permite um equilíbrio:
- Quando n=1: é simplesmente TD(0);
- Quando n=∞: torna-se Monte Carlo.
Esses retornos podem então ser usados para substituir o alvo na regra de atualização do TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) é um conceito engenhoso que se baseia no aprendizado TD de n passos: em vez de escolher um n fixo, combinam-se todos os retornos de n passos juntos:
Lt=(1−λ)n=0∑∞λn−1Gt(n)onde λ∈[0,1] controla a ponderação:
- Se λ=0: apenas o retorno de um passo → TD(0);
- Se λ=1: retorno completo → Monte Carlo;
- Valores intermediários mesclam múltiplos retornos de passos.
Assim, λ funciona como um ajuste de compromisso entre viés e variância:
- λ baixo: mais viés, menos variância;
- λ alto: menos viés, mais variância.
Lt pode então ser utilizado como alvo de atualização na regra de atualização do TD(0):
V(St)←V(St)+α(Lt−V(St))Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
Generalização do Aprendizado TD
Deslize para mostrar o menu
Até agora, consideramos dois casos extremos de aprendizado a partir da experiência:
- TD(0): utiliza o retorno de um passo;
- Monte Carlo: espera até o final do episódio para calcular o retorno.
Mas e se quisermos algo intermediário? Algo que aproveite mais informações futuras do que o TD(0), mas que não precise aguardar o episódio completo como o Monte Carlo?
É aqui que entram o aprendizado TD de n passos e o TD(λ) — métodos que unificam e generalizam as ideias vistas até agora.
n-Passos TD Learning
A ideia por trás do aprendizado TD de n passos é simples: em vez de usar apenas o próximo passo ou todo o episódio, utilizamos os próximos n passos, e então fazemos o bootstrap:
Gt(n)=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+1)Isso permite um equilíbrio:
- Quando n=1: é simplesmente TD(0);
- Quando n=∞: torna-se Monte Carlo.
Esses retornos podem então ser usados para substituir o alvo na regra de atualização do TD(0):
V(St)←V(St)+α(Gt(n)−V(St))TD(λ)
TD(λ) é um conceito engenhoso que se baseia no aprendizado TD de n passos: em vez de escolher um n fixo, combinam-se todos os retornos de n passos juntos:
Lt=(1−λ)n=0∑∞λn−1Gt(n)onde λ∈[0,1] controla a ponderação:
- Se λ=0: apenas o retorno de um passo → TD(0);
- Se λ=1: retorno completo → Monte Carlo;
- Valores intermediários mesclam múltiplos retornos de passos.
Assim, λ funciona como um ajuste de compromisso entre viés e variância:
- λ baixo: mais viés, menos variância;
- λ alto: menos viés, mais variância.
Lt pode então ser utilizado como alvo de atualização na regra de atualização do TD(0):
V(St)←V(St)+α(Lt−V(St))Obrigado pelo seu feedback!