Aprenda Episódios e Retornos | Teoria Central de RL

Duração de uma Tarefa

As tarefas em RL geralmente são categorizadas como episódicas ou contínuas, dependendo de como o processo de aprendizagem é estruturado ao longo do tempo.

Definição

Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.

Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.

Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal distinto.

Retorno

Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.

Definição

Retorno $G$ é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.

O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.

Se $T$ é o passo de tempo final, a fórmula do retorno é:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Desconto

Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.

Definição

Fator de desconto $\gamma$ é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.

Retorno combinado com um fator de desconto é chamado de retorno descontado.

A fórmula para o retorno descontado é a seguinte:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Estude Mais

Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, resultando em um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 4

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu

Duração de uma Tarefa

As tarefas em RL geralmente são categorizadas como episódicas ou contínuas, dependendo de como o processo de aprendizagem é estruturado ao longo do tempo.

Definição

Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.

Retorno

Definição

Retorno $G$ é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.

Se $T$ é o passo de tempo final, a fórmula do retorno é:

G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Desconto

Definição

Retorno combinado com um fator de desconto é chamado de retorno descontado.

A fórmula para o retorno descontado é a seguinte:

G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

Estude Mais

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 4