Aprenda O Que É Aprendizado por Diferença Temporal? | Aprendizado por Diferença Temporal

Tanto a programação dinâmica quanto os métodos de Monte Carlo apresentam ideias valiosas e algumas limitações significativas.

Programação Dinâmica

A programação dinâmica permite calcular de forma eficiente a função de valor de estado e derivar uma política ótima a partir dela. Utiliza bootstrapping — cálculo do valor do estado atual com base nos valores dos estados futuros — para alcançar esse objetivo.

Embora a ideia de bootstrapping seja poderosa, a programação dinâmica possui duas grandes limitações:

Requer um modelo completo e explícito do ambiente;
Os valores dos estados são calculados para cada estado, mesmo que o estado esteja longe do caminho ótimo.

Métodos de Monte Carlo

Os métodos de Monte Carlo corrigem as duas desvantagens da programação dinâmica:

Não exigem um modelo, pois aprendem a partir da experiência;
A forma como aprendem com a experiência torna a exploração mais limitada, de modo que estados não importantes raramente são visitados.

No entanto, introduzem uma nova limitação — o processo de aprendizagem ocorre apenas após a conclusão do episódio. Isso restringe a aplicabilidade dos métodos de Monte Carlo a tarefas episódicas pequenas, pois tarefas maiores exigiriam um número absurdamente grande de ações até que o episódio fosse concluído.

Aprendizado por Diferença Temporal

Definição

Aprendizado por diferença temporal (TD) resulta da combinação das ideias de programação dinâmica e métodos de Monte Carlo. Adota a abordagem de aprendizado a partir da experiência dos métodos de Monte Carlo e a combina com o bootstrapping da programação dinâmica.

Como resultado, o aprendizado TD corrige os principais problemas dos dois métodos:

Aprendizado a partir da experiência resolve a necessidade de um modelo e a questão de grandes espaços de estados;
Bootstrapping resolve a questão do aprendizado episódico.

Como funciona?

O aprendizado por diferença temporal (TD) funciona por meio de um ciclo simples:

Estimar o valor: o agente começa com uma suposição inicial de quão bom é o estado atual;
Executar uma ação: ele realiza uma ação, recebe uma recompensa e termina em um novo estado;
Atualizar a estimativa: utilizando a recompensa e o valor do novo estado, o agente ajusta levemente sua estimativa original para torná-la mais precisa;
Repetir: ao longo do tempo, repetindo esse ciclo, o agente gradualmente constrói estimativas de valor melhores e mais precisas para diferentes estados.

Tabela de Comparação

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu