Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Episódios e Retornos | Teoria Central de RL
Introdução ao Aprendizado por Reforço

bookEpisódios e Retornos

Duração de uma Tarefa

As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.

Note
Definição

Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.

Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.

Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.

Retorno

Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.

Note
Definição

Retorno GG é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.

O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.

Se TT é o passo de tempo final, a fórmula do retorno é:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Desconto

Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.

Note
Definição

Fator de desconto γ\gamma é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.

Retorno combinado com um fator de desconto é chamado de retorno descontado.

A fórmula para o retorno descontado é a seguinte:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Estude Mais

Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.

question mark

O que representa o fator de desconto γ\gamma?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.7

bookEpisódios e Retornos

Deslize para mostrar o menu

Duração de uma Tarefa

As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.

Note
Definição

Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.

Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.

Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.

Retorno

Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.

Note
Definição

Retorno GG é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.

O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.

Se TT é o passo de tempo final, a fórmula do retorno é:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Desconto

Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.

Note
Definição

Fator de desconto γ\gamma é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.

Retorno combinado com um fator de desconto é chamado de retorno descontado.

A fórmula para o retorno descontado é a seguinte:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Estude Mais

Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.

question mark

O que representa o fator de desconto γ\gamma?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 4
some-alt