Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Generalização do Aprendizado TD
Até agora, consideramos dois casos extremos de aprendizado a partir da experiência:
- TD(0): utiliza o retorno de um passo;
- Monte Carlo: espera até o final do episódio para calcular o retorno.
Mas e se quisermos algo intermediário? Algo que aproveite mais informações futuras do que o TD(0), mas que não precise aguardar o episódio completo como o Monte Carlo?
É aqui que entram o aprendizado TD de passos e o TD() — métodos que unificam e generalizam as ideias vistas até agora.
-Passos TD Learning
A ideia por trás do aprendizado TD de passos é simples: em vez de usar apenas o próximo passo ou todo o episódio, utilizamos os próximos passos, e então fazemos o bootstrap:
Isso permite um equilíbrio:
- Quando : é simplesmente TD(0);
- Quando : torna-se Monte Carlo.
Esses retornos podem então ser usados para substituir o alvo na regra de atualização do TD(0):
TD()
TD() é um conceito engenhoso que se baseia no aprendizado TD de passos: em vez de escolher um fixo, combinam-se todos os retornos de passos juntos:
onde controla a ponderação:
- Se : apenas o retorno de um passo TD(0);
- Se : retorno completo Monte Carlo;
- Valores intermediários mesclam múltiplos retornos de passos.
Assim, funciona como um ajuste de compromisso entre viés e variância:
- baixo: mais viés, menos variância;
- alto: menos viés, mais variância.
pode então ser utilizado como alvo de atualização na regra de atualização do TD(0):
Obrigado pelo seu feedback!