Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Modelo, Política e Valores
Modelo
Um modelo é uma representação do ambiente que define as probabilidades de transição entre estados e as recompensas esperadas para as ações realizadas.
Os algoritmos de aprendizado por reforço podem ser divididos em duas categorias:
- Baseados em modelo: nesta abordagem, o agente aprende ou tem acesso a um modelo do ambiente, o que permite simular estados futuros e recompensas antes de tomar decisões. Isso possibilita ao agente planejar e tomar decisões mais informadas;
- Sem modelo: nesta abordagem, o agente não possui um modelo direto do ambiente. Ele aprende exclusivamente por meio da interação com o ambiente, baseando-se em tentativa e erro para descobrir as melhores ações.
Na prática, ambientes com modelos explícitos são incomuns, tornando difícil para os agentes dependerem de estratégias baseadas em modelo. Como resultado, abordagens sem modelo tornaram-se mais prevalentes e amplamente estudadas em pesquisas e aplicações de aprendizado por reforço.
Política
Política é a estratégia que um agente segue para decidir suas ações com base no estado atual do ambiente.
Existem dois tipos de políticas:
- Política determinística: o agente sempre seleciona a mesma ação para um determinado estado;
- Política estocástica: o agente seleciona ações com base em distribuições de probabilidade.
Durante o processo de aprendizado, o objetivo do agente é encontrar uma política ótima. Uma política ótima é aquela que maximiza o retorno esperado, orientando o agente a tomar as melhores decisões possíveis em qualquer estado dado.
Funções de Valor
As funções de valor são fundamentais para compreender como um agente avalia o potencial de um determinado estado ou par estado-ação. Elas são utilizadas para estimar as recompensas esperadas futuras, auxiliando o agente a tomar decisões informadas.
Função de Valor de Estado
Função de valor de estado (ou ) é uma função que fornece o retorno esperado de estar em um determinado estado e seguir uma política específica. Auxilia na avaliação da desejabilidade dos estados.
O valor de um estado pode ser expresso matematicamente da seguinte forma:
Função de Valor Estado-Ação
Função de valor estado-ação (ou ) é uma função que fornece o retorno esperado ao tomar uma ação específica em um estado dado e seguir uma política específica a partir daí. Auxilia na avaliação da desejabilidade das ações nos estados.
Função de valor estado-ação também é frequentemente chamada de função de valor de ação.
O valor de uma ação pode ser expresso matematicamente da seguinte forma:
Relação entre Modelo, Política e Funções de Valor
Os conceitos de modelo, política e funções de valor estão intrinsecamente ligados, formando uma estrutura abrangente para categorizar algoritmos de Aprendizado por Reforço (RL). Essa estrutura é definida por dois eixos principais:
- Alvo de aprendizado: este eixo representa o espectro de algoritmos de RL com base em sua dependência de funções de valor, funções de política ou uma combinação de ambas;
- Aplicação do modelo: este eixo distingue os algoritmos com base em utilizarem ou não um modelo do ambiente, ou aprenderem exclusivamente por meio da interação.
Ao combinar essas dimensões, é possível classificar os algoritmos de RL em categorias distintas, cada uma com seu próprio conjunto de características e casos de uso ideais. Compreender essas relações auxilia na escolha do algoritmo apropriado para tarefas específicas, garantindo processos de aprendizado e tomada de decisão eficientes.
Obrigado pelo seu feedback!