Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Episódios e Retornos | Teoria Central de RL
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Episódios e Retornos

Duração de uma Tarefa

As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.

Note
Definição

Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.

Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.

Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.

Retorno

Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.

Note
Definição

Retorno GG é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.

O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.

Se TT é o passo de tempo final, a fórmula do retorno é:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Desconto

Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.

Note
Definição

Fator de desconto γ\gamma é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.

Retorno combinado com um fator de desconto é chamado de retorno descontado.

A fórmula para o retorno descontado é a seguinte:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Estude Mais

Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.

question mark

O que representa o fator de desconto γ\gamma?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Episódios e Retornos

Duração de uma Tarefa

As tarefas em RL são normalmente classificadas como episódicas ou contínuas, dependendo de como o processo de aprendizado é estruturado ao longo do tempo.

Note
Definição

Episódio é uma sequência completa de interações entre o agente e o ambiente, iniciando em um estado inicial e progredindo por uma série de transições até que um estado terminal seja alcançado.

Tarefas episódicas são aquelas que consistem em uma sequência finita de estados, ações e recompensas, onde a interação do agente com o ambiente é dividida em episódios distintos.

Em contraste, tarefas contínuas não possuem um final claro para cada ciclo de interação. O agente interage continuamente com o ambiente sem reiniciar para um estado inicial, e o processo de aprendizado é contínuo, geralmente sem um ponto terminal definido.

Retorno

Você já sabe que o principal objetivo do agente é maximizar as recompensas cumulativas. Embora a função de recompensa forneça recompensas instantâneas, ela não considera os resultados futuros, o que pode ser problemático. Um agente treinado apenas para maximizar recompensas imediatas pode ignorar benefícios de longo prazo. Para resolver esse problema, vamos introduzir o conceito de retorno.

Note
Definição

Retorno GG é a recompensa acumulada total que um agente recebe a partir de um determinado estado, incorporando todas as recompensas que receberá no futuro, não apenas as imediatas.

O retorno é uma representação mais adequada de quão bom é um determinado estado ou ação no longo prazo. O objetivo do aprendizado por reforço pode ser definido como maximizar o retorno.

Se TT é o passo de tempo final, a fórmula do retorno é:

Gt=Rt+1+Rt+2+Rt+3+...+RTG_t = R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T

Desconto

Embora o retorno simples seja um bom alvo em tarefas episódicas, em tarefas contínuas surge um problema. Se o número de passos de tempo for infinito, o retorno pode ser infinito. Para lidar com isso, utiliza-se um fator de desconto para garantir que recompensas futuras tenham peso menor, evitando que o retorno se torne infinito.

Note
Definição

Fator de desconto γ\gamma é um fator multiplicativo utilizado para determinar o valor presente das recompensas futuras. Varia entre 0 e 1, onde um valor mais próximo de 0 faz com que o agente priorize recompensas imediatas, enquanto um valor mais próximo de 1 faz com que o agente considere recompensas futuras de forma mais significativa.

Retorno combinado com um fator de desconto é chamado de retorno descontado.

A fórmula para o retorno descontado é a seguinte:

Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}
Note
Estude Mais

Mesmo em tarefas episódicas, o uso de um fator de desconto oferece benefícios práticos: motiva o agente a alcançar seu objetivo o mais rápido possível, levando a um comportamento mais eficiente. Por esse motivo, o desconto é comumente aplicado mesmo em cenários claramente episódicos.

question mark

O que representa o fator de desconto γ\gamma?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 4
some-alt