Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
O Que É Aprendizado por Diferença Temporal?
Tanto a programação dinâmica quanto os métodos de Monte Carlo apresentam ideias valiosas e algumas limitações significativas.
Programação Dinâmica
A programação dinâmica oferece uma maneira eficiente de calcular a função de valor de estado e derivar uma política ótima a partir dela. Utiliza o bootstrapping — cálculo do valor do estado atual com base nos valores dos estados futuros — para alcançar esse objetivo.
Embora a ideia de bootstrapping seja poderosa, a programação dinâmica possui duas grandes limitações:
- Exige um modelo completo e explícito do ambiente;
- Os valores dos estados são calculados para cada estado, mesmo que o estado esteja distante do caminho ótimo.
Métodos de Monte Carlo
Os métodos de Monte Carlo corrigem as duas desvantagens da programação dinâmica:
- Não exigem um modelo, pois aprendem a partir da experiência;
- A forma como aprendem com a experiência torna a exploração mais limitada, de modo que estados não importantes raramente são visitados.
No entanto, introduzem uma nova limitação — o processo de aprendizagem ocorre apenas após a conclusão do episódio. Isso restringe a aplicabilidade dos métodos de Monte Carlo a tarefas episódicas pequenas, já que tarefas maiores exigiriam um número absurdamente grande de ações até que o episódio fosse concluído.
Aprendizado por Diferença Temporal
Aprendizado por diferença temporal (TD) resulta da combinação das ideias de programação dinâmica e métodos de Monte Carlo. Adota a abordagem de aprendizado a partir da experiência dos métodos de Monte Carlo e a combina com o bootstrapping da programação dinâmica.
Como resultado, o aprendizado TD soluciona os principais problemas dos dois métodos:
- Aprendizado a partir da experiência resolve a necessidade de um modelo e a questão de grandes espaços de estados;
- Bootstrapping resolve a limitação do aprendizado episódico.
Como Funciona?
O aprendizado TD funciona por meio de um ciclo simples:
- Estimar o valor: o agente começa com uma suposição inicial de quão bom é o estado atual;
- Executar uma ação: ele realiza uma ação, recebe uma recompensa e termina em um novo estado;
- Atualizar a estimativa: usando a recompensa e o valor do novo estado, o agente ajusta levemente sua estimativa original para torná-la mais precisa;
- Repetir: com o tempo, ao repetir esse ciclo, o agente gradualmente constrói estimativas de valor melhores e mais precisas para diferentes estados.
Tabela Comparativa
Obrigado pelo seu feedback!