Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
TD(0): Estimativa da Função de Valor
A versão mais simples do aprendizado por diferença temporal é chamada de TD(0). Ela atualiza o valor de um estado com base na recompensa imediata e no valor estimado do próximo estado. Trata-se de um método TD de um passo.
Regra de Atualização
Dado um estado , recompensa e próximo estado , a regra de atualização é:
onde
- é a taxa de aprendizado, ou tamanho do passo;
- é o erro TD.
Intuição
A função de valor de estado pode ser definida e expandida da seguinte forma:
Isso fornece a primeira parte de — o retorno experimentado . E a segunda parte de é o retorno esperado . O erro TD é, portanto, a discrepância observável entre o que realmente aconteceu e o que se acreditava anteriormente que aconteceria. Assim, a regra de atualização ajusta a crença anterior um pouco a cada passo, aproximando-a da verdade.
TD(0) vs Estimativa de Monte Carlo
Tanto o TD(0) quanto a estimativa de Monte Carlo utilizam experiências amostradas para estimar a função de valor de estado para uma política . Sob condições padrão de convergência, ambos convergem para o verdadeiro à medida que o número de visitas a cada estado tende ao infinito. Na prática, entretanto, sempre dispomos de uma quantidade finita de dados, e os dois métodos diferem significativamente em como utilizam esses dados e na velocidade com que aprendem.
Compromisso entre Viés e Variância
Sob a perspectiva do trade-off entre viés e variância:
A estimação de Monte Carlo espera até o final de um episódio e então utiliza o retorno completo para atualizar os valores. Isso resulta em estimativas não enviesadas — os retornos refletem verdadeiramente a distribuição subjacente — mas podem variar drasticamente, especialmente em tarefas longas ou altamente estocásticas. Alta variância significa que muitos episódios são necessários para suavizar o ruído e obter estimativas de valor estáveis.
O TD(0) utiliza bootstrap ao combinar cada recompensa de um passo com a estimativa atual do valor do próximo estado. Isso introduz viés — as atualizações iniciais dependem de estimativas imperfeitas — mas mantém a variância baixa, já que cada atualização é baseada em um erro pequeno e incremental. Menor variância permite que o TD(0) propague informações de recompensa pelo espaço de estados mais rapidamente, mesmo que o viés inicial possa retardar a convergência.
Dados de Aprendizagem vs Modelo de Aprendizagem
Outra forma de analisar esses dois métodos é observar o que cada um realmente aprende:
A estimação de Monte Carlo aprende diretamente a partir dos retornos observados, ajustando suas estimativas de valor aos episódios específicos que presenciou. Isso significa que minimiza o erro nessas trajetórias de treinamento, mas como nunca constrói uma visão explícita de como os estados se relacionam, pode ter dificuldades para generalizar para situações novas ou ligeiramente diferentes.
O TD(0), por outro lado, utiliza bootstrap em cada transição de um passo, combinando a recompensa imediata com sua estimativa do valor do próximo estado. Dessa forma, captura efetivamente as relações entre os estados — um modelo implícito da dinâmica do ambiente. Essa compreensão semelhante a um modelo permite que o TD(0) generalize melhor para transições não vistas, frequentemente resultando em estimativas de valor mais precisas em novos dados.
Pseudocódigo
Obrigado pelo seu feedback!