Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Abordagens de Exploração | Métodos de Monte Carlo
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Abordagens de Exploração

A suposição de exploring starts é útil para garantir que todos os estados (pares estado-ação) sejam visitados ao longo do tempo. No entanto, na maioria das tarefas do mundo real, ela apresenta uma grande desvantagem: requer um modelo para inicializar o agente em estados arbitrários.

Em casos raros — quando o ambiente inicia episódios naturalmente a partir de estados aleatórios que cobrem todo o espaço de estados — exploring starts pode ser aplicado sem problemas. Mas, mais comumente, as tarefas possuem um conjunto fixo ou limitado de estados iniciais, tornando tal randomização impossível sem um modelo parcial. Esse modelo deve ser, no mínimo, capaz de simular um passo do ambiente a partir de qualquer estado. Embora isso seja menos exigente do que precisar de um modelo completo, muitas vezes é impraticável.

Abordagens Alternativas de Exploração

Se iniciar a partir de um estado aleatório (par estado-ação) não for uma opção, a alternativa é garantir que toda ação tenha uma probabilidade diferente de zero de ser selecionada em cada estado. Isso garante que, ao longo do tempo, o agente irá explorar todas as partes alcançáveis do espaço de estados. Se um estado pode ser alcançado por alguma sequência válida de ações, eventualmente será; e se não puder ser alcançado sob a dinâmica do ambiente, então é irrelevante para o processo de aprendizado.

Essa ideia leva ao uso de políticas estocásticas, nas quais o agente não escolhe sempre a melhor ação conhecida, mas seleciona ações com algum grau de aleatoriedade. Uma estratégia comum para isso é a conhecida política ε\varepsilon-greedy, que escolhe a ação gananciosa na maior parte do tempo, mas com probabilidade ε\varepsilon, seleciona uma ação aleatória. Isso garante exploração contínua, ainda favorecendo ações de alto valor.

Neste ponto, também é útil distinguir entre duas grandes classes de métodos:

  • Métodos on-policy avaliam e melhoram a mesma política utilizada para gerar os dados;
  • Métodos off-policy avaliam e melhoram uma política, e geram os dados com outra política.

1. Qual é o principal problema da suposição de inícios exploratórios?

2. Qual é a diferença entre métodos on-policy e off-policy em aprendizado por reforço?

question mark

Qual é o principal problema da suposição de inícios exploratórios?

Select the correct answer

question mark

Qual é a diferença entre métodos on-policy e off-policy em aprendizado por reforço?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 4

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Abordagens de Exploração

A suposição de exploring starts é útil para garantir que todos os estados (pares estado-ação) sejam visitados ao longo do tempo. No entanto, na maioria das tarefas do mundo real, ela apresenta uma grande desvantagem: requer um modelo para inicializar o agente em estados arbitrários.

Em casos raros — quando o ambiente inicia episódios naturalmente a partir de estados aleatórios que cobrem todo o espaço de estados — exploring starts pode ser aplicado sem problemas. Mas, mais comumente, as tarefas possuem um conjunto fixo ou limitado de estados iniciais, tornando tal randomização impossível sem um modelo parcial. Esse modelo deve ser, no mínimo, capaz de simular um passo do ambiente a partir de qualquer estado. Embora isso seja menos exigente do que precisar de um modelo completo, muitas vezes é impraticável.

Abordagens Alternativas de Exploração

Se iniciar a partir de um estado aleatório (par estado-ação) não for uma opção, a alternativa é garantir que toda ação tenha uma probabilidade diferente de zero de ser selecionada em cada estado. Isso garante que, ao longo do tempo, o agente irá explorar todas as partes alcançáveis do espaço de estados. Se um estado pode ser alcançado por alguma sequência válida de ações, eventualmente será; e se não puder ser alcançado sob a dinâmica do ambiente, então é irrelevante para o processo de aprendizado.

Essa ideia leva ao uso de políticas estocásticas, nas quais o agente não escolhe sempre a melhor ação conhecida, mas seleciona ações com algum grau de aleatoriedade. Uma estratégia comum para isso é a conhecida política ε\varepsilon-greedy, que escolhe a ação gananciosa na maior parte do tempo, mas com probabilidade ε\varepsilon, seleciona uma ação aleatória. Isso garante exploração contínua, ainda favorecendo ações de alto valor.

Neste ponto, também é útil distinguir entre duas grandes classes de métodos:

  • Métodos on-policy avaliam e melhoram a mesma política utilizada para gerar os dados;
  • Métodos off-policy avaliam e melhoram uma política, e geram os dados com outra política.

1. Qual é o principal problema da suposição de inícios exploratórios?

2. Qual é a diferença entre métodos on-policy e off-policy em aprendizado por reforço?

question mark

Qual é o principal problema da suposição de inícios exploratórios?

Select the correct answer

question mark

Qual é a diferença entre métodos on-policy e off-policy em aprendizado por reforço?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 4
some-alt