Aprenda Modelo, Política e Valores

Modelo

Definição

Um modelo é uma representação do ambiente que define as probabilidades de transição entre estados e as recompensas esperadas para as ações realizadas.

Os algoritmos de aprendizado por reforço podem ser divididos em duas categorias:

Baseados em modelo: nesta abordagem, o agente aprende ou tem acesso a um modelo do ambiente, o que permite simular estados futuros e recompensas antes de tomar ações. Isso possibilita ao agente planejar e tomar decisões mais informadas;
Sem modelo: nesta abordagem, o agente não possui um modelo direto do ambiente. Ele aprende exclusivamente por meio da interação com o ambiente, baseando-se em tentativa e erro para descobrir as melhores ações.

Na prática, ambientes com modelos explícitos são incomuns, tornando difícil para os agentes dependerem de estratégias baseadas em modelo. Como resultado, abordagens sem modelo tornaram-se mais prevalentes e amplamente estudadas em pesquisas e aplicações de aprendizado por reforço.

Política

Definição

Política $\pi$ é a estratégia que um agente segue para decidir suas ações com base no estado atual do ambiente.

Existem dois tipos de políticas:

Política determinística: o agente sempre seleciona a mesma ação para um determinado estado;
Política estocástica: o agente seleciona ações com base em distribuições de probabilidade.

Durante o processo de aprendizado, o objetivo do agente é encontrar uma política ótima. Uma política ótima é aquela que maximiza o retorno esperado, orientando o agente a tomar as melhores decisões possíveis em qualquer estado dado.

Funções de Valor

Funções de valor são fundamentais para compreender como um agente avalia o potencial de um determinado estado ou par de estado-ação. Elas são utilizadas para estimar as recompensas esperadas futuras, auxiliando o agente a tomar decisões informadas.

Função de Valor de Estado

Definição

Função de valor de estado $V$ (ou $v$ ) é uma função que fornece o retorno esperado de estar em um determinado estado e seguir uma política específica. Auxilia na avaliação da desejabilidade dos estados.

O valor de um estado pode ser expresso matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Função de Valor Estado-Ação

Definição

Função de valor estado-ação $Q$ (ou $q$ ) é uma função que fornece o retorno esperado ao tomar uma ação específica em um estado dado e seguir uma política específica posteriormente. Auxilia na avaliação da desejabilidade das ações em determinados estados.

Função de valor estado-ação também é frequentemente chamada de função de valor de ação.

O valor de uma ação pode ser expresso matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relação entre Modelo, Política e Funções de Valor

Os conceitos de modelo, política e funções de valor estão intrinsecamente ligados, formando uma estrutura abrangente para categorizar algoritmos de RL. Essa estrutura é definida por dois eixos principais:

Alvo de aprendizado: este eixo representa o espectro dos algoritmos de RL com base em sua dependência de funções de valor, funções de política ou uma combinação de ambas;
Aplicação do modelo: este eixo distingue os algoritmos com base em utilizarem um modelo do ambiente ou aprenderem apenas por meio da interação.

Ao combinar essas dimensões, é possível classificar os algoritmos de RL em categorias distintas, cada uma com seu próprio conjunto de características e casos de uso ideais. Compreender essas relações auxilia na seleção do algoritmo apropriado para tarefas específicas, garantindo processos de aprendizado e tomada de decisão eficientes.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu

Modelo

Definição

Um modelo é uma representação do ambiente que define as probabilidades de transição entre estados e as recompensas esperadas para as ações realizadas.

Os algoritmos de aprendizado por reforço podem ser divididos em duas categorias:

Baseados em modelo: nesta abordagem, o agente aprende ou tem acesso a um modelo do ambiente, o que permite simular estados futuros e recompensas antes de tomar ações. Isso possibilita ao agente planejar e tomar decisões mais informadas;
Sem modelo: nesta abordagem, o agente não possui um modelo direto do ambiente. Ele aprende exclusivamente por meio da interação com o ambiente, baseando-se em tentativa e erro para descobrir as melhores ações.

Política

Definição

Política $\pi$ é a estratégia que um agente segue para decidir suas ações com base no estado atual do ambiente.

Existem dois tipos de políticas:

Política determinística: o agente sempre seleciona a mesma ação para um determinado estado;
Política estocástica: o agente seleciona ações com base em distribuições de probabilidade.

Funções de Valor

Função de Valor de Estado

Definição

O valor de um estado pode ser expresso matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Função de Valor Estado-Ação

Definição

Função de valor estado-ação também é frequentemente chamada de função de valor de ação.

O valor de uma ação pode ser expresso matematicamente da seguinte forma:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relação entre Modelo, Política e Funções de Valor

Alvo de aprendizado: este eixo representa o espectro dos algoritmos de RL com base em sua dependência de funções de valor, funções de política ou uma combinação de ambas;
Aplicação do modelo: este eixo distingue os algoritmos com base em utilizarem um modelo do ambiente ou aprenderem apenas por meio da interação.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5