Aprenda Processo de Decisão de Markov

Definição

Processo de decisão de Markov (MDP) é uma estrutura matemática utilizada para modelar problemas de tomada de decisão nos quais um agente interage com um ambiente ao longo do tempo.

Problemas de aprendizado por reforço são frequentemente estruturados como MDPs, que fornecem uma maneira organizada de definir o problema. MDPs descrevem o ambiente utilizando quatro componentes principais: estados, ações, transições e recompensas. Esses componentes funcionam juntos sob a propriedade de Markov, que garante que o estado futuro depende apenas do estado e ação atuais, e não dos estados anteriores.

Os Quatro Componentes

Estado

Definição

Um estado $s$ é uma representação do ambiente em um ponto específico no tempo. O conjunto de todos os possíveis estados é chamado de espaço de estados $S$ .

Um estado é normalmente representado por um conjunto de parâmetros que capturam as características relevantes do ambiente. Esses parâmetros podem incluir diversos aspectos, como posição, velocidade, rotação, etc.

Ação

Definição

Uma ação $a$ é uma decisão ou movimento realizado pelo agente para influenciar o ambiente. O conjunto de todas as ações possíveis é chamado de espaço de ações $A$ .

O conjunto de ações possíveis geralmente depende do estado atual.

Transição

Definição

Transição descreve como o estado do ambiente muda em resposta à ação do agente. A função de transição $p$ especifica a probabilidade de transitar de um estado para outro, dado uma ação específica.

Em muitos casos, os ambientes podem ser determinísticos ou estocásticos, significando que a transição pode ser previsível ou pode envolver algum grau de aleatoriedade.

Recompensa

Definição

Uma recompensa $r$ é um valor numérico recebido pelo agente após realizar uma ação em um determinado estado. A função que mapeia transições para recompensas esperadas é chamada de função de recompensa $R$ .

Recompensas direcionam o agente para comportamentos desejáveis, podendo ser positivas ou negativas. A engenharia de recompensas é complexa, pois o agente pode tentar explorar as recompensas.

Propriedade de Markov

A propriedade de Markov em um processo de decisão de Markov afirma que o próximo estado e recompensa dependem apenas do estado e ação atuais, e não de informações passadas. Isso garante uma estrutura sem memória, simplificando o processo de aprendizado.

Matematicamente, essa propriedade pode ser descrita pela seguinte fórmula:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

onde:

$S_t$ é o estado no tempo $t$ ;
$A_t$ é a ação tomada no tempo $t$ ;
$R_t$ é a recompensa no tempo $t$ .

Nota

A natureza sem memória do MDP não significa que observações passadas são ignoradas. O estado atual deve codificar todas as informações históricas relevantes.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain more about how the Markov property simplifies reinforcement learning?

What are some examples of states, actions, transitions, and rewards in real-world problems?

How does reward engineering impact the behavior of reinforcement learning agents?

Deslize para mostrar o menu

Definição

Os Quatro Componentes

Estado

Definição

Um estado $s$ é uma representação do ambiente em um ponto específico no tempo. O conjunto de todos os possíveis estados é chamado de espaço de estados $S$ .

Ação

Definição

Uma ação $a$ é uma decisão ou movimento realizado pelo agente para influenciar o ambiente. O conjunto de todas as ações possíveis é chamado de espaço de ações $A$ .

O conjunto de ações possíveis geralmente depende do estado atual.

Transição

Definição

Em muitos casos, os ambientes podem ser determinísticos ou estocásticos, significando que a transição pode ser previsível ou pode envolver algum grau de aleatoriedade.

Recompensa

Definição

Propriedade de Markov

Matematicamente, essa propriedade pode ser descrita pela seguinte fórmula:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

onde:

$S_t$ é o estado no tempo $t$ ;
$A_t$ é a ação tomada no tempo $t$ ;
$R_t$ é a recompensa no tempo $t$ .

Nota

A natureza sem memória do MDP não significa que observações passadas são ignoradas. O estado atual deve codificar todas as informações históricas relevantes.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3