Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda O Que É Aprendizado por Diferença Temporal? | Aprendizado por Diferença Temporal
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
O Que É Aprendizado por Diferença Temporal?

Tanto a programação dinâmica quanto os métodos de Monte Carlo apresentam ideias valiosas e algumas limitações significativas.

Programação Dinâmica

A programação dinâmica oferece uma maneira eficiente de calcular a função de valor de estado e derivar uma política ótima a partir dela. Utiliza o bootstrapping — cálculo do valor do estado atual com base nos valores dos estados futuros — para alcançar esse objetivo.

Embora a ideia de bootstrapping seja poderosa, a programação dinâmica possui duas grandes limitações:

  • Exige um modelo completo e explícito do ambiente;
  • Os valores dos estados são calculados para cada estado, mesmo que o estado esteja distante do caminho ótimo.

Métodos de Monte Carlo

Os métodos de Monte Carlo corrigem as duas desvantagens da programação dinâmica:

  • Não exigem um modelo, pois aprendem a partir da experiência;
  • A forma como aprendem com a experiência torna a exploração mais limitada, de modo que estados não importantes raramente são visitados.

No entanto, introduzem uma nova limitação — o processo de aprendizagem ocorre apenas após a conclusão do episódio. Isso restringe a aplicabilidade dos métodos de Monte Carlo a tarefas episódicas pequenas, já que tarefas maiores exigiriam um número absurdamente grande de ações até que o episódio fosse concluído.

Aprendizado por Diferença Temporal

Note
Definição

Aprendizado por diferença temporal (TD) resulta da combinação das ideias de programação dinâmica e métodos de Monte Carlo. Adota a abordagem de aprendizado a partir da experiência dos métodos de Monte Carlo e a combina com o bootstrapping da programação dinâmica.

Como resultado, o aprendizado TD soluciona os principais problemas dos dois métodos:

  • Aprendizado a partir da experiência resolve a necessidade de um modelo e a questão de grandes espaços de estados;
  • Bootstrapping resolve a limitação do aprendizado episódico.

Como Funciona?

O aprendizado TD funciona por meio de um ciclo simples:

  1. Estimar o valor: o agente começa com uma suposição inicial de quão bom é o estado atual;
  2. Executar uma ação: ele realiza uma ação, recebe uma recompensa e termina em um novo estado;
  3. Atualizar a estimativa: usando a recompensa e o valor do novo estado, o agente ajusta levemente sua estimativa original para torná-la mais precisa;
  4. Repetir: com o tempo, ao repetir esse ciclo, o agente gradualmente constrói estimativas de valor melhores e mais precisas para diferentes estados.

Tabela Comparativa

question mark

Como o aprendizado por diferença temporal combina as vantagens da programação dinâmica e dos métodos de Monte Carlo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
O Que É Aprendizado por Diferença Temporal?

Tanto a programação dinâmica quanto os métodos de Monte Carlo apresentam ideias valiosas e algumas limitações significativas.

Programação Dinâmica

A programação dinâmica oferece uma maneira eficiente de calcular a função de valor de estado e derivar uma política ótima a partir dela. Utiliza o bootstrapping — cálculo do valor do estado atual com base nos valores dos estados futuros — para alcançar esse objetivo.

Embora a ideia de bootstrapping seja poderosa, a programação dinâmica possui duas grandes limitações:

  • Exige um modelo completo e explícito do ambiente;
  • Os valores dos estados são calculados para cada estado, mesmo que o estado esteja distante do caminho ótimo.

Métodos de Monte Carlo

Os métodos de Monte Carlo corrigem as duas desvantagens da programação dinâmica:

  • Não exigem um modelo, pois aprendem a partir da experiência;
  • A forma como aprendem com a experiência torna a exploração mais limitada, de modo que estados não importantes raramente são visitados.

No entanto, introduzem uma nova limitação — o processo de aprendizagem ocorre apenas após a conclusão do episódio. Isso restringe a aplicabilidade dos métodos de Monte Carlo a tarefas episódicas pequenas, já que tarefas maiores exigiriam um número absurdamente grande de ações até que o episódio fosse concluído.

Aprendizado por Diferença Temporal

Note
Definição

Aprendizado por diferença temporal (TD) resulta da combinação das ideias de programação dinâmica e métodos de Monte Carlo. Adota a abordagem de aprendizado a partir da experiência dos métodos de Monte Carlo e a combina com o bootstrapping da programação dinâmica.

Como resultado, o aprendizado TD soluciona os principais problemas dos dois métodos:

  • Aprendizado a partir da experiência resolve a necessidade de um modelo e a questão de grandes espaços de estados;
  • Bootstrapping resolve a limitação do aprendizado episódico.

Como Funciona?

O aprendizado TD funciona por meio de um ciclo simples:

  1. Estimar o valor: o agente começa com uma suposição inicial de quão bom é o estado atual;
  2. Executar uma ação: ele realiza uma ação, recebe uma recompensa e termina em um novo estado;
  3. Atualizar a estimativa: usando a recompensa e o valor do novo estado, o agente ajusta levemente sua estimativa original para torná-la mais precisa;
  4. Repetir: com o tempo, ao repetir esse ciclo, o agente gradualmente constrói estimativas de valor melhores e mais precisas para diferentes estados.

Tabela Comparativa

question mark

Como o aprendizado por diferença temporal combina as vantagens da programação dinâmica e dos métodos de Monte Carlo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1
some-alt