Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Modelo, Política e Valores | Teoria Central de RL
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Modelo, Política e Valores

Modelo

Note
Definição

Um modelo é uma representação do ambiente que define as probabilidades de transição entre estados e as recompensas esperadas para as ações realizadas.

Os algoritmos de aprendizado por reforço podem ser divididos em duas categorias:

  • Baseados em modelo: nesta abordagem, o agente aprende ou tem acesso a um modelo do ambiente, o que permite simular estados futuros e recompensas antes de tomar decisões. Isso possibilita ao agente planejar e tomar decisões mais informadas;
  • Sem modelo: nesta abordagem, o agente não possui um modelo direto do ambiente. Ele aprende exclusivamente por meio da interação com o ambiente, baseando-se em tentativa e erro para descobrir as melhores ações.

Na prática, ambientes com modelos explícitos são incomuns, tornando difícil para os agentes dependerem de estratégias baseadas em modelo. Como resultado, abordagens sem modelo tornaram-se mais prevalentes e amplamente estudadas em pesquisas e aplicações de aprendizado por reforço.

Política

Note
Definição

Política π\pi é a estratégia que um agente segue para decidir suas ações com base no estado atual do ambiente.

Existem dois tipos de políticas:

  • Política determinística: o agente sempre seleciona a mesma ação para um determinado estado;
  • Política estocástica: o agente seleciona ações com base em distribuições de probabilidade.

Durante o processo de aprendizado, o objetivo do agente é encontrar uma política ótima. Uma política ótima é aquela que maximiza o retorno esperado, orientando o agente a tomar as melhores decisões possíveis em qualquer estado dado.

Funções de Valor

As funções de valor são fundamentais para compreender como um agente avalia o potencial de um determinado estado ou par estado-ação. Elas são utilizadas para estimar as recompensas esperadas futuras, auxiliando o agente a tomar decisões informadas.

Função de Valor de Estado

Note
Definição

Função de valor de estado VV (ou vv) é uma função que fornece o retorno esperado de estar em um determinado estado e seguir uma política específica. Auxilia na avaliação da desejabilidade dos estados.

O valor de um estado pode ser expresso matematicamente da seguinte forma:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Função de Valor Estado-Ação

Note
Definição

Função de valor estado-ação QQ (ou qq) é uma função que fornece o retorno esperado ao tomar uma ação específica em um estado dado e seguir uma política específica a partir daí. Auxilia na avaliação da desejabilidade das ações nos estados.

Função de valor estado-ação também é frequentemente chamada de função de valor de ação.

O valor de uma ação pode ser expresso matematicamente da seguinte forma:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relação entre Modelo, Política e Funções de Valor

Os conceitos de modelo, política e funções de valor estão intrinsecamente ligados, formando uma estrutura abrangente para categorizar algoritmos de Aprendizado por Reforço (RL). Essa estrutura é definida por dois eixos principais:

  • Alvo de aprendizado: este eixo representa o espectro de algoritmos de RL com base em sua dependência de funções de valor, funções de política ou uma combinação de ambas;
  • Aplicação do modelo: este eixo distingue os algoritmos com base em utilizarem ou não um modelo do ambiente, ou aprenderem exclusivamente por meio da interação.

Ao combinar essas dimensões, é possível classificar os algoritmos de RL em categorias distintas, cada uma com seu próprio conjunto de características e casos de uso ideais. Compreender essas relações auxilia na escolha do algoritmo apropriado para tarefas específicas, garantindo processos de aprendizado e tomada de decisão eficientes.

question-icon

Preencha as lacunas

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Clique ou arraste solte itens e preencha os espaços

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Modelo, Política e Valores

Modelo

Note
Definição

Um modelo é uma representação do ambiente que define as probabilidades de transição entre estados e as recompensas esperadas para as ações realizadas.

Os algoritmos de aprendizado por reforço podem ser divididos em duas categorias:

  • Baseados em modelo: nesta abordagem, o agente aprende ou tem acesso a um modelo do ambiente, o que permite simular estados futuros e recompensas antes de tomar decisões. Isso possibilita ao agente planejar e tomar decisões mais informadas;
  • Sem modelo: nesta abordagem, o agente não possui um modelo direto do ambiente. Ele aprende exclusivamente por meio da interação com o ambiente, baseando-se em tentativa e erro para descobrir as melhores ações.

Na prática, ambientes com modelos explícitos são incomuns, tornando difícil para os agentes dependerem de estratégias baseadas em modelo. Como resultado, abordagens sem modelo tornaram-se mais prevalentes e amplamente estudadas em pesquisas e aplicações de aprendizado por reforço.

Política

Note
Definição

Política π\pi é a estratégia que um agente segue para decidir suas ações com base no estado atual do ambiente.

Existem dois tipos de políticas:

  • Política determinística: o agente sempre seleciona a mesma ação para um determinado estado;
  • Política estocástica: o agente seleciona ações com base em distribuições de probabilidade.

Durante o processo de aprendizado, o objetivo do agente é encontrar uma política ótima. Uma política ótima é aquela que maximiza o retorno esperado, orientando o agente a tomar as melhores decisões possíveis em qualquer estado dado.

Funções de Valor

As funções de valor são fundamentais para compreender como um agente avalia o potencial de um determinado estado ou par estado-ação. Elas são utilizadas para estimar as recompensas esperadas futuras, auxiliando o agente a tomar decisões informadas.

Função de Valor de Estado

Note
Definição

Função de valor de estado VV (ou vv) é uma função que fornece o retorno esperado de estar em um determinado estado e seguir uma política específica. Auxilia na avaliação da desejabilidade dos estados.

O valor de um estado pode ser expresso matematicamente da seguinte forma:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Função de Valor Estado-Ação

Note
Definição

Função de valor estado-ação QQ (ou qq) é uma função que fornece o retorno esperado ao tomar uma ação específica em um estado dado e seguir uma política específica a partir daí. Auxilia na avaliação da desejabilidade das ações nos estados.

Função de valor estado-ação também é frequentemente chamada de função de valor de ação.

O valor de uma ação pode ser expresso matematicamente da seguinte forma:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relação entre Modelo, Política e Funções de Valor

Os conceitos de modelo, política e funções de valor estão intrinsecamente ligados, formando uma estrutura abrangente para categorizar algoritmos de Aprendizado por Reforço (RL). Essa estrutura é definida por dois eixos principais:

  • Alvo de aprendizado: este eixo representa o espectro de algoritmos de RL com base em sua dependência de funções de valor, funções de política ou uma combinação de ambas;
  • Aplicação do modelo: este eixo distingue os algoritmos com base em utilizarem ou não um modelo do ambiente, ou aprenderem exclusivamente por meio da interação.

Ao combinar essas dimensões, é possível classificar os algoritmos de RL em categorias distintas, cada uma com seu próprio conjunto de características e casos de uso ideais. Compreender essas relações auxilia na escolha do algoritmo apropriado para tarefas específicas, garantindo processos de aprendizado e tomada de decisão eficientes.

question-icon

Preencha as lacunas

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Clique ou arraste solte itens e preencha os espaços

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5
some-alt