Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda O Que É Aprendizado por Diferença Temporal? | Aprendizado por Diferença Temporal
Introdução ao Aprendizado por Reforço

bookO Que É Aprendizado por Diferença Temporal?

Tanto a programação dinâmica quanto os métodos de Monte Carlo apresentam ideias valiosas e algumas limitações significativas.

Programação Dinâmica

A programação dinâmica oferece uma maneira eficiente de calcular a função de valor de estado e derivar uma política ótima a partir dela. Utiliza o bootstrapping — cálculo do valor do estado atual com base nos valores dos estados futuros — para alcançar esse objetivo.

Embora a ideia de bootstrapping seja poderosa, a programação dinâmica possui duas grandes limitações:

  • Exige um modelo completo e explícito do ambiente;
  • Os valores dos estados são calculados para cada estado, mesmo que o estado esteja distante do caminho ótimo.

Métodos de Monte Carlo

Os métodos de Monte Carlo corrigem as duas desvantagens da programação dinâmica:

  • Não exigem um modelo, pois aprendem a partir da experiência;
  • A forma como aprendem com a experiência torna a exploração mais limitada, de modo que estados não importantes raramente são visitados.

No entanto, introduzem uma nova limitação — o processo de aprendizagem ocorre apenas após a conclusão do episódio. Isso restringe a aplicabilidade dos métodos de Monte Carlo a tarefas episódicas pequenas, já que tarefas maiores exigiriam um número absurdamente grande de ações até que o episódio fosse concluído.

Aprendizado por Diferença Temporal

Note
Definição

Aprendizado por diferença temporal (TD) resulta da combinação das ideias de programação dinâmica e métodos de Monte Carlo. Adota a abordagem de aprendizado a partir da experiência dos métodos de Monte Carlo e a combina com o bootstrapping da programação dinâmica.

Como resultado, o aprendizado TD soluciona os principais problemas dos dois métodos:

  • Aprendizado a partir da experiência resolve a necessidade de um modelo e a questão de grandes espaços de estados;
  • Bootstrapping resolve a limitação do aprendizado episódico.

Como Funciona?

O aprendizado TD funciona por meio de um ciclo simples:

  1. Estimar o valor: o agente começa com uma suposição inicial de quão bom é o estado atual;
  2. Executar uma ação: ele realiza uma ação, recebe uma recompensa e termina em um novo estado;
  3. Atualizar a estimativa: usando a recompensa e o valor do novo estado, o agente ajusta levemente sua estimativa original para torná-la mais precisa;
  4. Repetir: com o tempo, ao repetir esse ciclo, o agente gradualmente constrói estimativas de valor melhores e mais precisas para diferentes estados.

Tabela Comparativa

question mark

Como o aprendizado por diferença temporal combina as vantagens da programação dinâmica e dos métodos de Monte Carlo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookO Que É Aprendizado por Diferença Temporal?

Deslize para mostrar o menu

Tanto a programação dinâmica quanto os métodos de Monte Carlo apresentam ideias valiosas e algumas limitações significativas.

Programação Dinâmica

A programação dinâmica oferece uma maneira eficiente de calcular a função de valor de estado e derivar uma política ótima a partir dela. Utiliza o bootstrapping — cálculo do valor do estado atual com base nos valores dos estados futuros — para alcançar esse objetivo.

Embora a ideia de bootstrapping seja poderosa, a programação dinâmica possui duas grandes limitações:

  • Exige um modelo completo e explícito do ambiente;
  • Os valores dos estados são calculados para cada estado, mesmo que o estado esteja distante do caminho ótimo.

Métodos de Monte Carlo

Os métodos de Monte Carlo corrigem as duas desvantagens da programação dinâmica:

  • Não exigem um modelo, pois aprendem a partir da experiência;
  • A forma como aprendem com a experiência torna a exploração mais limitada, de modo que estados não importantes raramente são visitados.

No entanto, introduzem uma nova limitação — o processo de aprendizagem ocorre apenas após a conclusão do episódio. Isso restringe a aplicabilidade dos métodos de Monte Carlo a tarefas episódicas pequenas, já que tarefas maiores exigiriam um número absurdamente grande de ações até que o episódio fosse concluído.

Aprendizado por Diferença Temporal

Note
Definição

Aprendizado por diferença temporal (TD) resulta da combinação das ideias de programação dinâmica e métodos de Monte Carlo. Adota a abordagem de aprendizado a partir da experiência dos métodos de Monte Carlo e a combina com o bootstrapping da programação dinâmica.

Como resultado, o aprendizado TD soluciona os principais problemas dos dois métodos:

  • Aprendizado a partir da experiência resolve a necessidade de um modelo e a questão de grandes espaços de estados;
  • Bootstrapping resolve a limitação do aprendizado episódico.

Como Funciona?

O aprendizado TD funciona por meio de um ciclo simples:

  1. Estimar o valor: o agente começa com uma suposição inicial de quão bom é o estado atual;
  2. Executar uma ação: ele realiza uma ação, recebe uma recompensa e termina em um novo estado;
  3. Atualizar a estimativa: usando a recompensa e o valor do novo estado, o agente ajusta levemente sua estimativa original para torná-la mais precisa;
  4. Repetir: com o tempo, ao repetir esse ciclo, o agente gradualmente constrói estimativas de valor melhores e mais precisas para diferentes estados.

Tabela Comparativa

question mark

Como o aprendizado por diferença temporal combina as vantagens da programação dinâmica e dos métodos de Monte Carlo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1
some-alt