Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Processo de Decisão de Markov
Processo de decisão de Markov (MDP) é uma estrutura matemática utilizada para modelar problemas de tomada de decisão nos quais um agente interage com um ambiente ao longo do tempo.
Problemas de aprendizado por reforço são frequentemente formulados como MDPs, que fornecem uma maneira estruturada de definir o problema. MDPs descrevem o ambiente utilizando quatro componentes principais: estados, ações, transições e recompensas. Esses componentes funcionam juntos sob a propriedade de Markov, que garante que o estado futuro depende apenas do estado e ação atuais, e não dos estados passados.
Os Quatro Componentes
Estado
Um estado é uma representação do ambiente em um ponto específico no tempo. O conjunto de todos os possíveis estados é chamado de espaço de estados .
Um estado é normalmente representado por um conjunto de parâmetros que capturam as características relevantes do ambiente. Esses parâmetros podem incluir diversos aspectos como posição, velocidade, rotação, etc.
Ação
Uma ação é uma decisão ou movimento realizado pelo agente para influenciar o ambiente. O conjunto de todas as ações possíveis é chamado de espaço de ações .
O conjunto de ações possíveis geralmente depende do estado atual.
Transição
Transição descreve como o estado do ambiente muda em resposta à ação do agente. A função de transição especifica a probabilidade de passar de um estado para outro, dado uma ação específica.
Em muitos casos, os ambientes podem ser determinísticos ou estocásticos, o que significa que a transição pode ser previsível ou pode envolver algum grau de aleatoriedade.
Recompensa
Uma recompensa é um valor numérico recebido pelo agente após realizar uma ação em um determinado estado. A função que mapeia transições para recompensas esperadas é chamada de função de recompensa .
Recompensas direcionam o agente para comportamentos desejáveis e podem ser positivas ou negativas. A engenharia de recompensas é complexa, pois o agente pode tentar explorar as recompensas.
Propriedade de Markov
A propriedade de Markov em um processo de decisão de Markov afirma que o próximo estado e recompensa dependem apenas do estado e ação atuais, e não de informações passadas. Isso garante uma estrutura sem memória, simplificando o processo de aprendizado.
Matematicamente, essa propriedade pode ser descrita por esta fórmula:
onde:
- é um estado no tempo ;
- é uma ação tomada no tempo ;
- é uma recompensa no tempo .
A natureza sem memória do MDP não significa que observações passadas são ignoradas. O estado atual deve codificar todas as informações históricas relevantes.
Obrigado pelo seu feedback!