TD(0): Estimativa da Função de Valor
A versão mais simples do aprendizado por diferença temporal é chamada de TD(0). Ela atualiza o valor de um estado com base na recompensa imediata e no valor estimado do próximo estado. Trata-se de um método TD de um passo.
Regra de Atualização
Dado um estado St, recompensa Rt+1 e próximo estado St+1, a regra de atualização é:
V(St)←V(St)+α(Rt+1+γV(St+1)−V(St))onde
- α é a taxa de aprendizado, ou tamanho do passo;
- δt=Rt+1+γV(St+1)−V(St) é o erro TD.
Intuição
A função de valor de estado vπ pode ser definida e expandida da seguinte forma:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+γGt+1∣St=s]=Eπ[Rt+γvπ(St+1)∣St=s]Isso fornece a primeira parte de δt — o retorno experimentado Rt+1+γV(St+1). E a segunda parte de δt é o retorno esperado V(St). O erro TD δt é, portanto, a discrepância observável entre o que realmente aconteceu e o que se acreditava anteriormente que aconteceria. Assim, a regra de atualização ajusta a crença anterior um pouco a cada passo, aproximando-a da verdade.
TD(0) vs Estimativa de Monte Carlo
Tanto o TD(0) quanto a estimativa de Monte Carlo utilizam experiências amostradas para estimar a função de valor de estado vπ(s) para uma política π. Sob condições padrão de convergência, ambos convergem para o verdadeiro vπ(s) à medida que o número de visitas a cada estado tende ao infinito. Na prática, entretanto, sempre dispomos de uma quantidade finita de dados, e os dois métodos diferem significativamente em como utilizam esses dados e na velocidade com que aprendem.
Compromisso entre Viés e Variância
Sob a perspectiva do trade-off entre viés e variância:
A estimação de Monte Carlo espera até o final de um episódio e então utiliza o retorno completo para atualizar os valores. Isso resulta em estimativas não enviesadas — os retornos refletem verdadeiramente a distribuição subjacente — mas podem variar drasticamente, especialmente em tarefas longas ou altamente estocásticas. Alta variância significa que muitos episódios são necessários para suavizar o ruído e obter estimativas de valor estáveis.
O TD(0) utiliza bootstrap ao combinar cada recompensa de um passo com a estimativa atual do valor do próximo estado. Isso introduz viés — as atualizações iniciais dependem de estimativas imperfeitas — mas mantém a variância baixa, já que cada atualização é baseada em um erro pequeno e incremental. Menor variância permite que o TD(0) propague informações de recompensa pelo espaço de estados mais rapidamente, mesmo que o viés inicial possa retardar a convergência.
Dados de Aprendizagem vs Modelo de Aprendizagem
Outra forma de analisar esses dois métodos é observar o que cada um realmente aprende:
A estimação de Monte Carlo aprende diretamente a partir dos retornos observados, ajustando suas estimativas de valor aos episódios específicos que presenciou. Isso significa que minimiza o erro nessas trajetórias de treinamento, mas como nunca constrói uma visão explícita de como os estados se relacionam, pode ter dificuldades para generalizar para situações novas ou ligeiramente diferentes.
O TD(0), por outro lado, utiliza bootstrap em cada transição de um passo, combinando a recompensa imediata com sua estimativa do valor do próximo estado. Dessa forma, captura efetivamente as relações entre os estados — um modelo implícito da dinâmica do ambiente. Essa compreensão semelhante a um modelo permite que o TD(0) generalize melhor para transições não vistas, frequentemente resultando em estimativas de valor mais precisas em novos dados.
Pseudocódigo
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.7
TD(0): Estimativa da Função de Valor
Deslize para mostrar o menu
A versão mais simples do aprendizado por diferença temporal é chamada de TD(0). Ela atualiza o valor de um estado com base na recompensa imediata e no valor estimado do próximo estado. Trata-se de um método TD de um passo.
Regra de Atualização
Dado um estado St, recompensa Rt+1 e próximo estado St+1, a regra de atualização é:
V(St)←V(St)+α(Rt+1+γV(St+1)−V(St))onde
- α é a taxa de aprendizado, ou tamanho do passo;
- δt=Rt+1+γV(St+1)−V(St) é o erro TD.
Intuição
A função de valor de estado vπ pode ser definida e expandida da seguinte forma:
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+γGt+1∣St=s]=Eπ[Rt+γvπ(St+1)∣St=s]Isso fornece a primeira parte de δt — o retorno experimentado Rt+1+γV(St+1). E a segunda parte de δt é o retorno esperado V(St). O erro TD δt é, portanto, a discrepância observável entre o que realmente aconteceu e o que se acreditava anteriormente que aconteceria. Assim, a regra de atualização ajusta a crença anterior um pouco a cada passo, aproximando-a da verdade.
TD(0) vs Estimativa de Monte Carlo
Tanto o TD(0) quanto a estimativa de Monte Carlo utilizam experiências amostradas para estimar a função de valor de estado vπ(s) para uma política π. Sob condições padrão de convergência, ambos convergem para o verdadeiro vπ(s) à medida que o número de visitas a cada estado tende ao infinito. Na prática, entretanto, sempre dispomos de uma quantidade finita de dados, e os dois métodos diferem significativamente em como utilizam esses dados e na velocidade com que aprendem.
Compromisso entre Viés e Variância
Sob a perspectiva do trade-off entre viés e variância:
A estimação de Monte Carlo espera até o final de um episódio e então utiliza o retorno completo para atualizar os valores. Isso resulta em estimativas não enviesadas — os retornos refletem verdadeiramente a distribuição subjacente — mas podem variar drasticamente, especialmente em tarefas longas ou altamente estocásticas. Alta variância significa que muitos episódios são necessários para suavizar o ruído e obter estimativas de valor estáveis.
O TD(0) utiliza bootstrap ao combinar cada recompensa de um passo com a estimativa atual do valor do próximo estado. Isso introduz viés — as atualizações iniciais dependem de estimativas imperfeitas — mas mantém a variância baixa, já que cada atualização é baseada em um erro pequeno e incremental. Menor variância permite que o TD(0) propague informações de recompensa pelo espaço de estados mais rapidamente, mesmo que o viés inicial possa retardar a convergência.
Dados de Aprendizagem vs Modelo de Aprendizagem
Outra forma de analisar esses dois métodos é observar o que cada um realmente aprende:
A estimação de Monte Carlo aprende diretamente a partir dos retornos observados, ajustando suas estimativas de valor aos episódios específicos que presenciou. Isso significa que minimiza o erro nessas trajetórias de treinamento, mas como nunca constrói uma visão explícita de como os estados se relacionam, pode ter dificuldades para generalizar para situações novas ou ligeiramente diferentes.
O TD(0), por outro lado, utiliza bootstrap em cada transição de um passo, combinando a recompensa imediata com sua estimativa do valor do próximo estado. Dessa forma, captura efetivamente as relações entre os estados — um modelo implícito da dinâmica do ambiente. Essa compreensão semelhante a um modelo permite que o TD(0) generalize melhor para transições não vistas, frequentemente resultando em estimativas de valor mais precisas em novos dados.
Pseudocódigo
Obrigado pelo seu feedback!