Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Controle Monte Carlo Off-Policy
Enquanto os métodos on-policy aprendem seguindo e aprimorando a mesma política, os métodos off-policy introduzem uma diferença: eles aprendem sobre uma política (a política alvo) enquanto seguem outra (a política de comportamento). Essa separação é poderosa — permite avaliar ou melhorar uma política alvo sem a necessidade de realmente segui-la durante a coleta de dados.
Analogia
Vamos voltar à sorveteria do capítulo anterior. Você e seu amigo entram, e novamente, os três sabores familiares estão disponíveis: chocolate, baunilha e morango. Chocolate é o seu favorito pessoal, e seu primeiro instinto é pedi-lo. Mas esta sorveteria é nova para você, e você não tem certeza se escolher chocolate é a melhor opção. Felizmente, seu amigo é um grande apreciador de sorvetes que já visitou quase todas as sorveterias da cidade. Você pede a opinião dele. "O chocolate aqui é razoável," ele diz, "mas confie em mim — o morango é excepcional." Então, com base na experiência dele, você decide deixar de lado sua escolha habitual e optar pelo morango.
Essa decisão — confiar na experiência de outra pessoa para guiar sua própria escolha — é a essência dos métodos off-policy. Você está tentando aprimorar sua tomada de decisão utilizando dados coletados sob o comportamento de outro agente. Ainda é exploração — mas é guiada por experiência externa em vez da sua própria.
Amostragem de Importância
Como o agente segue a política de comportamento durante a geração dos episódios, é necessário considerar a diferença entre o que a política de comportamento gera e o que a política alvo geraria. É aqui que a amostragem de importância entra em cena.
A amostragem por importância fornece um método para ajustar os retornos observados sob a política de comportamento, tornando-os estimativas válidas para a política alvo.
Vamos analisar uma trajetória que começa em determinado estado e segue uma política até o episódio terminar em um tempo . Especificamente, observamos:
Qual é a probabilidade dessa trajetória ocorrer sob uma política ? Ela depende tanto das probabilidades de ação da política quanto da dinâmica de transição do ambiente:
Agora, suponha que a trajetória foi realmente gerada por uma política diferente — a política de comportamento . Para utilizar corretamente essa trajetória na estimativa de expectativas sob a política alvo , é necessário considerar o quanto essa sequência de ações seria mais ou menos provável sob em comparação com .
É aqui que entra a razão de amostragem por importância. Ela é definida como a probabilidade relativa da trajetória sob as duas políticas:
No final, as probabilidades de transição se cancelam, já que ambas as políticas operam no mesmo ambiente, e o valor de depende apenas das políticas, não do ambiente.
Por que isso é importante
A razão indica como reponderar o retorno observado sob a política de comportamento para que se torne uma estimativa não viesada do que o retorno teria sido sob a política alvo:
Ou seja, mesmo que os dados tenham sido coletados usando , ainda é possível estimar os retornos esperados sob — desde que atribua probabilidade diferente de zero para toda ação que possa tomar (suposição de cobertura).
Considerações Práticas
Variância do Amostragem por Importância
A incorporação da amostragem por importância é conceitualmente simples. Ajusta-se a função valor de ação estimada ponderando cada retorno observado com a razão de amostragem por importância correspondente. A formulação mais simples é a seguinte:
onde:
- é a razão de amostragem por importância para a -ésima trajetória iniciando em ;
- é o retorno dessa trajetória;
- é o número de vezes que foi visitado.
Isso é conhecido como amostragem por importância ordinária. Fornece uma estimativa não tendenciosa de , mas pode apresentar variância muito alta, especialmente quando as políticas de comportamento e alvo diferem significativamente.
Para mitigar o problema da variância, pode-se utilizar uma alternativa mais estável: amostragem por importância ponderada. Este método normaliza os pesos de importância, reduzindo o impacto de razões elevadas e levando a um aprendizado mais estável:
Nesta versão, o numerador é a mesma soma ponderada dos retornos, mas o denominador agora é a soma dos pesos de importância, em vez de uma simples contagem.
Isso torna a estimativa tendenciosa, mas o viés diminui à medida que mais amostras são coletadas. Na prática, a amostragem por importância ponderada é preferida devido à sua variância significativamente menor e maior estabilidade numérica.
Políticas
Assim como no caso on-policy, utilizam-se políticas -gananciosas tanto para a política alvo quanto para a política de comportamento .
À primeira vista, parece natural tornar a política alvo totalmente gananciosa — afinal, nosso objetivo final é uma política gananciosa. Na prática, porém, isso causa um grande problema: se em algum passo para a ação realmente tomada pela política de comportamento, a razão de amostragem por importância se torna zero e o restante do episódio é efetivamente descartado.
Ao utilizar um pequeno (por exemplo, ) na política alvo, garantimos que para toda ação, de modo que nunca colapse para zero no meio do episódio. Após o treinamento, é trivial converter a política ‑gananciosa aprendida em uma política estritamente gananciosa. Assim como no aprendizado on-policy, deve-se utilizar decaimento de na política de comportamento, mas desta vez principalmente por estabilidade numérica, já que ainda pode cair para zero durante o episódio, devido à forma como os números são representados em computadores.
Pseudocódigo
Obrigado pelo seu feedback!