Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Processo de Decisão de Markov | Teoria Central de RL
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Processo de Decisão de Markov

Note
Definição

Processo de decisão de Markov (MDP) é uma estrutura matemática utilizada para modelar problemas de tomada de decisão nos quais um agente interage com um ambiente ao longo do tempo.

Problemas de aprendizado por reforço são frequentemente formulados como MDPs, que fornecem uma maneira estruturada de definir o problema. MDPs descrevem o ambiente utilizando quatro componentes principais: estados, ações, transições e recompensas. Esses componentes funcionam juntos sob a propriedade de Markov, que garante que o estado futuro depende apenas do estado e ação atuais, e não dos estados passados.

Os Quatro Componentes

Estado

Note
Definição

Um estado ss é uma representação do ambiente em um ponto específico no tempo. O conjunto de todos os possíveis estados é chamado de espaço de estados SS.

Um estado é normalmente representado por um conjunto de parâmetros que capturam as características relevantes do ambiente. Esses parâmetros podem incluir diversos aspectos como posição, velocidade, rotação, etc.

Ação

Note
Definição

Uma ação aa é uma decisão ou movimento realizado pelo agente para influenciar o ambiente. O conjunto de todas as ações possíveis é chamado de espaço de ações AA.

O conjunto de ações possíveis geralmente depende do estado atual.

Transição

Note
Definição

Transição descreve como o estado do ambiente muda em resposta à ação do agente. A função de transição pp especifica a probabilidade de passar de um estado para outro, dado uma ação específica.

Em muitos casos, os ambientes podem ser determinísticos ou estocásticos, o que significa que a transição pode ser previsível ou pode envolver algum grau de aleatoriedade.

Recompensa

Note
Definição

Uma recompensa rr é um valor numérico recebido pelo agente após realizar uma ação em um determinado estado. A função que mapeia transições para recompensas esperadas é chamada de função de recompensa RR.

Recompensas direcionam o agente para comportamentos desejáveis e podem ser positivas ou negativas. A engenharia de recompensas é complexa, pois o agente pode tentar explorar as recompensas.

Propriedade de Markov

A propriedade de Markov em um processo de decisão de Markov afirma que o próximo estado e recompensa dependem apenas do estado e ação atuais, e não de informações passadas. Isso garante uma estrutura sem memória, simplificando o processo de aprendizado.

Matematicamente, essa propriedade pode ser descrita por esta fórmula:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

onde:

  • StS_t é um estado no tempo tt;
  • AtA_t é uma ação tomada no tempo tt;
  • RtR_t é uma recompensa no tempo tt.
Note
Nota

A natureza sem memória do MDP não significa que observações passadas são ignoradas. O estado atual deve codificar todas as informações históricas relevantes.

question mark

Imagine que o agente está jogando um jogo. Qual destas é uma boa representação do estado do ambiente em um MDP?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Processo de Decisão de Markov

Note
Definição

Processo de decisão de Markov (MDP) é uma estrutura matemática utilizada para modelar problemas de tomada de decisão nos quais um agente interage com um ambiente ao longo do tempo.

Problemas de aprendizado por reforço são frequentemente formulados como MDPs, que fornecem uma maneira estruturada de definir o problema. MDPs descrevem o ambiente utilizando quatro componentes principais: estados, ações, transições e recompensas. Esses componentes funcionam juntos sob a propriedade de Markov, que garante que o estado futuro depende apenas do estado e ação atuais, e não dos estados passados.

Os Quatro Componentes

Estado

Note
Definição

Um estado ss é uma representação do ambiente em um ponto específico no tempo. O conjunto de todos os possíveis estados é chamado de espaço de estados SS.

Um estado é normalmente representado por um conjunto de parâmetros que capturam as características relevantes do ambiente. Esses parâmetros podem incluir diversos aspectos como posição, velocidade, rotação, etc.

Ação

Note
Definição

Uma ação aa é uma decisão ou movimento realizado pelo agente para influenciar o ambiente. O conjunto de todas as ações possíveis é chamado de espaço de ações AA.

O conjunto de ações possíveis geralmente depende do estado atual.

Transição

Note
Definição

Transição descreve como o estado do ambiente muda em resposta à ação do agente. A função de transição pp especifica a probabilidade de passar de um estado para outro, dado uma ação específica.

Em muitos casos, os ambientes podem ser determinísticos ou estocásticos, o que significa que a transição pode ser previsível ou pode envolver algum grau de aleatoriedade.

Recompensa

Note
Definição

Uma recompensa rr é um valor numérico recebido pelo agente após realizar uma ação em um determinado estado. A função que mapeia transições para recompensas esperadas é chamada de função de recompensa RR.

Recompensas direcionam o agente para comportamentos desejáveis e podem ser positivas ou negativas. A engenharia de recompensas é complexa, pois o agente pode tentar explorar as recompensas.

Propriedade de Markov

A propriedade de Markov em um processo de decisão de Markov afirma que o próximo estado e recompensa dependem apenas do estado e ação atuais, e não de informações passadas. Isso garante uma estrutura sem memória, simplificando o processo de aprendizado.

Matematicamente, essa propriedade pode ser descrita por esta fórmula:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

onde:

  • StS_t é um estado no tempo tt;
  • AtA_t é uma ação tomada no tempo tt;
  • RtR_t é uma recompensa no tempo tt.
Note
Nota

A natureza sem memória do MDP não significa que observações passadas são ignoradas. O estado atual deve codificar todas as informações históricas relevantes.

question mark

Imagine que o agente está jogando um jogo. Qual destas é uma boa representação do estado do ambiente em um MDP?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3
some-alt