Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Episódios e Retornos
Duração de uma Tarefa
As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.
Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.
Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.
Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.
Retorno
Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.
Retorno é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.
O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.
Se é o passo de tempo final, a fórmula do retorno é:
Desconto
Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.
Fator de desconto é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.
Retorno combinado com um fator de desconto é chamado de retorno descontado.
A fórmula para o retorno descontado é a seguinte:
Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.
Obrigado pelo seu feedback!