Aprenda Controle Monte Carlo Off-Policy

Enquanto os métodos on-policy aprendem seguindo e aprimorando a mesma política, os métodos off-policy introduzem uma diferença: eles aprendem sobre uma política (a política alvo) enquanto seguem outra (a política de comportamento). Essa separação é poderosa — permite avaliar ou melhorar uma política alvo sem a necessidade de realmente segui-la durante a coleta de dados.

Analogia

Vamos voltar à sorveteria do capítulo anterior. Você e seu amigo entram, e novamente, os três sabores familiares estão disponíveis: chocolate, baunilha e morango. Chocolate é o seu favorito, e seu primeiro instinto é pedi-lo. Mas essa loja é nova para você, e não tem certeza se escolher chocolate é a melhor opção. Felizmente, seu amigo é um grande apreciador de sorvetes e já visitou quase todas as lojas da cidade. Você pede a opinião dele. "O chocolate aqui é razoável," ele diz, "mas confie em mim — o morango é excepcional." Então, com base na experiência dele, você decide deixar sua escolha habitual de lado e optar pelo morango.

Essa decisão — confiar na experiência de outra pessoa para orientar sua própria escolha — é a essência dos métodos off-policy. Busca-se aprimorar a tomada de decisão utilizando dados coletados sob o comportamento de outro agente. Ainda é exploração — mas guiada por experiência externa em vez da própria.

Amostragem por Importância

Como o agente segue a política de comportamento durante a geração dos episódios, é necessário considerar a diferença entre o que a política de comportamento gera e o que a política alvo geraria. É nesse ponto que a amostragem por importância se torna relevante.

A amostragem por importância fornece uma maneira de ajustar os retornos observados sob a política de comportamento para que sejam estimativas válidas para a política alvo.

Vamos analisar uma trajetória que começa em um determinado estado $S_t$ e segue uma determinada política $\pi$ até que o episódio termine em um tempo $T$ . Especificamente, observamos:

A_t, S_{t+1}, A_{t+1}, ..., S_{T}

Agora, qual é a probabilidade dessa trajetória ocorrer sob uma política $\pi$ ? Ela depende tanto das probabilidades de ação da política quanto da dinâmica de transição do ambiente:

p(trajectory | \pi) = \prod_{k=t}^{T-1} \pi(A_k | S_k)p(S_{k+1} | S_k, A_k)

Agora, suponha que a trajetória tenha sido realmente gerada por uma política diferente — a política de comportamento $b$ . Para utilizar corretamente essa trajetória para estimar expectativas sob a política alvo $\pi$ , é necessário considerar o quanto essa sequência de ações seria mais ou menos provável sob $\pi$ em comparação com $b$ .

É aqui que entra a razão de amostragem por importância. Ela é definida como a probabilidade relativa da trajetória sob as duas políticas:

\rho = \frac{p(trajectory | \pi)}{p(trajectory | b)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)p(S_{k+1} | S_k, A_k)}{b(A_k | S_k)p(S_{k+1} | S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k | S_k)}{b(A_k | S_k)}

No final, as probabilidades de transição se cancelam, já que ambas as políticas operam no mesmo ambiente, e o valor de $\rho$ depende apenas das políticas, não do ambiente.

Por que isso é importante

A razão $\rho$ nos informa como reponderar o retorno $G_t$ observado sob a política de comportamento para que ele se torne uma estimativa não tendenciosa do que o retorno teria sido sob a política alvo:

\def\E{\operatorname{\mathbb{E}}} \E_\pi[G_t] = \E_b[\rho \cdot G_t]

Em outras palavras, mesmo que os dados tenham sido coletados usando $b$ , ainda podemos estimar os retornos esperados sob $\pi$ — desde que $b$ atribua probabilidade diferente de zero para toda ação que $\pi$ possa tomar (suposição de cobertura).

Considerações Práticas

Variância do Amostragem por Importância

A incorporação da amostragem por importância é conceitualmente simples. Ajusta-se a função valor de ação estimada $q(s, a)$ ponderando cada retorno observado pelo respectivo coeficiente de amostragem por importância. A formulação mais simples é a seguinte:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{N(s, a)}

onde:

$\rho_i(s, a)$ é o coeficiente de amostragem por importância para a $i$ -ésima trajetória iniciando em $(s, a)$ ;
$Returns_i(s, a)$ é o retorno dessa trajetória;
$N(s, a)$ é o número de vezes que $(s, a)$ foi visitado.

Isso é conhecido como amostragem por importância ordinária. Fornece uma estimativa não tendenciosa de $q(s, a)$ , mas pode apresentar variância muito alta, especialmente quando as políticas de comportamento e alvo diferem significativamente.

Para mitigar o problema da variância, pode-se utilizar uma alternativa mais estável: amostragem por importância ponderada. Este método normaliza os pesos de importância, reduzindo o impacto de grandes razões e proporcionando um aprendizado mais estável:

q(s, a) = \frac{\sum_{i=0}^{N(s, a)} \rho_i(s, a) \cdot Returns_i(s, a)}{\sum_{i=0}^{N(s, a)} \rho_i(s, a)}

Nesta versão, o numerador é a mesma soma ponderada dos retornos, mas o denominador agora é a soma dos pesos de importância, em vez de uma simples contagem.

Isso torna a estimativa tendenciosa, mas o viés diminui à medida que mais amostras são coletadas. Na prática, a amostragem por importância ponderada é preferida devido à sua variância significativamente menor e maior estabilidade numérica.

Políticas

Assim como no caso on-policy, utilizam-se políticas $\varepsilon$ -gananciosas tanto para a política alvo $\pi(a | s)$ quanto para a política de comportamento $b(a | s)$ .

À primeira vista, parece natural tornar a política alvo totalmente gananciosa — afinal, o objetivo final é uma política gananciosa. No entanto, na prática, isso causa um grande problema: se em algum passo $\pi(a | s) = 0$ para a ação realmente tomada pela política de comportamento, a razão de amostragem por importância $\rho$ se torna zero e o restante do episódio é efetivamente descartado.

Ao utilizar um pequeno $\varepsilon$ (por exemplo, $\varepsilon = 0.01$ ) na política alvo, garante-se que $\pi(a | s) > 0$ para toda ação, de modo que $\rho$ nunca colapse para zero no meio do episódio. Após o treinamento, é trivial converter a política $\varepsilon$ -gananciosa aprendida em uma política estritamente gananciosa. Assim como no aprendizado on-policy, deve-se utilizar decaimento de $\varepsilon$ na política de comportamento, mas desta vez principalmente por estabilidade numérica, já que $\rho$ ainda pode cair para zero no meio do episódio, devido à forma como os números são representados nos computadores.

Pseudocódigo

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 6

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain the difference between ordinary and weighted importance sampling in more detail?

Why does using a fully greedy target policy cause problems in off-policy learning?

Can you summarize the key advantages of off-policy methods compared to on-policy methods?

Deslize para mostrar o menu