Aprenda Abordagens de Exploração | Métodos de Monte Carlo

A suposição de exploring starts é útil para garantir que todos os estados (pares estado-ação) sejam visitados ao longo do tempo. No entanto, na maioria das tarefas do mundo real, ela apresenta uma grande desvantagem: exige um modelo para inicializar o agente em estados arbitrários.

Em casos raros — quando o ambiente inicia episódios naturalmente a partir de estados aleatórios que cobrem todo o espaço de estados — exploring starts pode ser aplicada sem problemas. Mas, mais comumente, as tarefas possuem um conjunto fixo ou limitado de estados iniciais, tornando tal randomização impossível sem um modelo parcial. Esse modelo deve ser, no mínimo, capaz de simular um passo do ambiente a partir de qualquer estado. Embora isso ainda seja menos exigente do que precisar de um modelo completo, muitas vezes é impraticável.

Abordagens Alternativas de Exploração

Se iniciar a partir de um estado aleatório (par estado-ação) não for uma opção, a alternativa é garantir que toda ação tenha uma probabilidade diferente de zero de ser selecionada em cada estado. Isso garante que, ao longo do tempo, o agente irá explorar todas as partes alcançáveis do espaço de estados. Se um estado pode ser alcançado por alguma sequência válida de ações, eventualmente será; e se não puder ser alcançado sob a dinâmica do ambiente, então é irrelevante para o processo de aprendizado.

Essa ideia leva ao uso de políticas estocásticas, nas quais o agente não escolhe sempre a melhor ação conhecida, mas seleciona ações com algum grau de aleatoriedade. Uma estratégia comum para isso é a conhecida política $\varepsilon$ -greedy, que escolhe a ação gananciosa na maior parte do tempo, mas com probabilidade $\varepsilon$ , seleciona uma ação aleatória. Isso garante exploração contínua, ainda favorecendo ações de alto valor.

Neste ponto, também é útil distinguir entre duas grandes classes de métodos:

Métodos on-policy avaliam e melhoram a mesma política utilizada para gerar os dados;
Métodos off-policy avaliam e melhoram uma política, e geram os dados com outra política.

1. Qual é o principal problema da suposição de inícios exploratórios?

2. Qual é a diferença entre métodos on-policy e off-policy em aprendizado por reforço?

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 4

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between on-policy and off-policy methods in more detail?

How does the ε-greedy policy work in practice?

What are some other exploration strategies besides ε-greedy?

Deslize para mostrar o menu