Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Controle Monte Carlo On-Policy
A ideia por trás dos métodos on-policy é intuitiva: um agente aprende seguindo sua política atual e aprimora essa política com base nos resultados que experimenta. Para descobrir ações melhores e evitar ficar preso em comportamentos subótimos, o agente incorpora um grau de aleatoriedade — ocasionalmente tentando ações alternativas para incentivar a exploração.
Analogia
Imagine que você está em uma sorveteria e há três sabores disponíveis: chocolate, baunilha e morango. Você adora chocolate, então normalmente escolhe esse sabor. Mas um dia, por curiosidade, você decide experimentar o morango. Acontece que o sorvete de morango dessa loja é incrivelmente saboroso, e você decide escolhê-lo sempre que visitar essa sorveteria.
Experimentar um novo sabor não foi necessariamente a escolha mais lógica com base na experiência anterior, mas proporcionou a oportunidade de descobrir algo novo. Esse tipo de exploração está no cerne dos métodos on-policy.
Políticas Estocásticas
Formalmente, adotar essa ideia significa substituir as políticas determinísticas (duras) utilizadas em programação dinâmica por políticas estocásticas (suaves), denotadas como , onde:
Ou seja, toda ação em cada estado possui uma probabilidade diferente de zero de ser selecionada. Isso garante que todas as partes do ambiente possam eventualmente ser exploradas, o que é essencial ao aprender com a experiência.
Políticas -gananciosas
Para incorporar exploração na política, utilizamos o conceito de -exploração gananciosa do problema do multi-armed bandit. Isso nos permite definir uma política estocástica que equilibra a exploração da melhor ação conhecida com a exploração de alternativas:
Essa política se comporta de forma gananciosa na maior parte do tempo — escolhendo a ação com o maior valor estimado — mas, com probabilidade , seleciona uma ação aleatória, garantindo que todas as ações tenham uma chance diferente de zero de serem escolhidas (inclusive a gananciosa novamente, via amostragem uniforme).
À primeira vista, essa abordagem pode parecer problemática: como a política nunca se torna puramente gananciosa, ela nunca irá convergir exatamente para a política ótima. Portanto, não satisfaz estritamente as condições para GPI se esperarmos ótima exatidão no limite.
No entanto, o GPI não exige que a política se torne ótima imediatamente — apenas que cada política melhore (ou permaneça igual) em relação à anterior, avançando progressivamente em direção à otimalidade. A política -gananciosa satisfaz essa condição: ela melhora a política em média e garante exploração contínua para apoiar melhores estimativas.
Para resolver a questão da convergência para a política realmente ótima, podemos reduzir gradualmente ao longo do tempo. Essa estratégia permite que a política se torne cada vez mais gananciosa à medida que o aprendizado avança. Nos estágios iniciais, a exploração ajuda a coletar experiências diversas, enquanto nos estágios posteriores, o agente explora seu conhecimento aprimorado. Com um adequadamente decrescente, o método converge para uma política ótima no limite.
Pseudocódigo
Obrigado pelo seu feedback!