Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Abordagens de Exploração
A suposição de exploring starts é útil para garantir que todos os estados (pares estado-ação) sejam visitados ao longo do tempo. No entanto, na maioria das tarefas do mundo real, ela apresenta uma grande desvantagem: requer um modelo para inicializar o agente em estados arbitrários.
Em casos raros — quando o ambiente inicia episódios naturalmente a partir de estados aleatórios que cobrem todo o espaço de estados — exploring starts pode ser aplicado sem problemas. Mas, mais comumente, as tarefas possuem um conjunto fixo ou limitado de estados iniciais, tornando tal randomização impossível sem um modelo parcial. Esse modelo deve ser, no mínimo, capaz de simular um passo do ambiente a partir de qualquer estado. Embora isso seja menos exigente do que precisar de um modelo completo, muitas vezes é impraticável.
Abordagens Alternativas de Exploração
Se iniciar a partir de um estado aleatório (par estado-ação) não for uma opção, a alternativa é garantir que toda ação tenha uma probabilidade diferente de zero de ser selecionada em cada estado. Isso garante que, ao longo do tempo, o agente irá explorar todas as partes alcançáveis do espaço de estados. Se um estado pode ser alcançado por alguma sequência válida de ações, eventualmente será; e se não puder ser alcançado sob a dinâmica do ambiente, então é irrelevante para o processo de aprendizado.
Essa ideia leva ao uso de políticas estocásticas, nas quais o agente não escolhe sempre a melhor ação conhecida, mas seleciona ações com algum grau de aleatoriedade. Uma estratégia comum para isso é a conhecida política -greedy, que escolhe a ação gananciosa na maior parte do tempo, mas com probabilidade , seleciona uma ação aleatória. Isso garante exploração contínua, ainda favorecendo ações de alto valor.
Neste ponto, também é útil distinguir entre duas grandes classes de métodos:
- Métodos on-policy avaliam e melhoram a mesma política utilizada para gerar os dados;
- Métodos off-policy avaliam e melhoram uma política, e geram os dados com outra política.
1. Qual é o principal problema da suposição de inícios exploratórios?
2. Qual é a diferença entre métodos on-policy e off-policy em aprendizado por reforço?
Obrigado pelo seu feedback!