Episódios e Retornos
Duração de uma Tarefa
As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.
Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.
Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.
Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.
Retorno
Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.
Retorno G é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.
O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.
Se T é o passo de tempo final, a fórmula do retorno é:
Gt=Rt+1+Rt+2+Rt+3+...+RTDesconto
Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.
Fator de desconto γ é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.
Retorno combinado com um fator de desconto é chamado de retorno descontado.
A fórmula para o retorno descontado é a seguinte:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
What is the difference between episodic and continuous tasks?
Can you explain how the discount factor works in reinforcement learning?
Why is it important to use discounted return in continuous tasks?
Awesome!
Completion rate improved to 2.7
Episódios e Retornos
Deslize para mostrar o menu
Duração de uma Tarefa
As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.
Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.
Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.
Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.
Retorno
Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.
Retorno G é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.
O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.
Se T é o passo de tempo final, a fórmula do retorno é:
Gt=Rt+1+Rt+2+Rt+3+...+RTDesconto
Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.
Fator de desconto γ é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.
Retorno combinado com um fator de desconto é chamado de retorno descontado.
A fórmula para o retorno descontado é a seguinte:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.
Obrigado pelo seu feedback!