Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Controle Monte Carlo On-Policy | Métodos de Monte Carlo
Introdução ao Aprendizado por Reforço
course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Controle Monte Carlo On-Policy

A ideia por trás dos métodos on-policy é intuitiva: um agente aprende seguindo sua política atual e aprimora essa política com base nos resultados que experimenta. Para descobrir ações melhores e evitar ficar preso em comportamentos subótimos, o agente incorpora um grau de aleatoriedade — ocasionalmente tentando ações alternativas para incentivar a exploração.

Analogia

Imagine que você está em uma sorveteria e há três sabores disponíveis: chocolate, baunilha e morango. Você adora chocolate, então normalmente escolhe esse sabor. Mas um dia, por curiosidade, você decide experimentar o morango. Acontece que o sorvete de morango dessa loja é incrivelmente saboroso, e você decide escolhê-lo sempre que visitar essa sorveteria.

Experimentar um novo sabor não foi necessariamente a escolha mais lógica com base na experiência anterior, mas proporcionou a oportunidade de descobrir algo novo. Esse tipo de exploração está no cerne dos métodos on-policy.

Políticas Estocásticas

Formalmente, adotar essa ideia significa substituir as políticas determinísticas (duras) utilizadas em programação dinâmica por políticas estocásticas (suaves), denotadas como π(as)\pi(a | s), onde:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Ou seja, toda ação em cada estado possui uma probabilidade diferente de zero de ser selecionada. Isso garante que todas as partes do ambiente possam eventualmente ser exploradas, o que é essencial ao aprender com a experiência.

Políticas ε\Large\varepsilon-gananciosas

Para incorporar exploração na política, utilizamos o conceito de ε\varepsilon-exploração gananciosa do problema do multi-armed bandit. Isso nos permite definir uma política estocástica que equilibra a exploração da melhor ação conhecida com a exploração de alternativas:

π(as){1ε+εA(s)se a=arg maxaqπ(s,a)εA(s)caso contraˊrio\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{se } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{caso contrário} \end{dcases}

Essa política se comporta de forma gananciosa na maior parte do tempo — escolhendo a ação com o maior valor estimado — mas, com probabilidade ε\varepsilon, seleciona uma ação aleatória, garantindo que todas as ações tenham uma chance diferente de zero de serem escolhidas (inclusive a gananciosa novamente, via amostragem uniforme).

À primeira vista, essa abordagem pode parecer problemática: como a política nunca se torna puramente gananciosa, ela nunca irá convergir exatamente para a política ótima. Portanto, não satisfaz estritamente as condições para GPI se esperarmos ótima exatidão no limite.

No entanto, o GPI não exige que a política se torne ótima imediatamente — apenas que cada política melhore (ou permaneça igual) em relação à anterior, avançando progressivamente em direção à otimalidade. A política ε\varepsilon-gananciosa satisfaz essa condição: ela melhora a política em média e garante exploração contínua para apoiar melhores estimativas.

Para resolver a questão da convergência para a política realmente ótima, podemos reduzir gradualmente ε\varepsilon ao longo do tempo. Essa estratégia permite que a política se torne cada vez mais gananciosa à medida que o aprendizado avança. Nos estágios iniciais, a exploração ajuda a coletar experiências diversas, enquanto nos estágios posteriores, o agente explora seu conhecimento aprimorado. Com um ε\varepsilon adequadamente decrescente, o método converge para uma política ótima no limite.

Pseudocódigo

question mark

Como as políticas estocásticas podem ajudar na exploração?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

course content

Conteúdo do Curso

Introdução ao Aprendizado por Reforço

Introdução ao Aprendizado por Reforço

1. Teoria Central de RL
2. Problema do Bandido de Múltiplos Braços
3. Programação Dinâmica
4. Métodos de Monte Carlo
5. Aprendizado por Diferença Temporal

book
Controle Monte Carlo On-Policy

A ideia por trás dos métodos on-policy é intuitiva: um agente aprende seguindo sua política atual e aprimora essa política com base nos resultados que experimenta. Para descobrir ações melhores e evitar ficar preso em comportamentos subótimos, o agente incorpora um grau de aleatoriedade — ocasionalmente tentando ações alternativas para incentivar a exploração.

Analogia

Imagine que você está em uma sorveteria e há três sabores disponíveis: chocolate, baunilha e morango. Você adora chocolate, então normalmente escolhe esse sabor. Mas um dia, por curiosidade, você decide experimentar o morango. Acontece que o sorvete de morango dessa loja é incrivelmente saboroso, e você decide escolhê-lo sempre que visitar essa sorveteria.

Experimentar um novo sabor não foi necessariamente a escolha mais lógica com base na experiência anterior, mas proporcionou a oportunidade de descobrir algo novo. Esse tipo de exploração está no cerne dos métodos on-policy.

Políticas Estocásticas

Formalmente, adotar essa ideia significa substituir as políticas determinísticas (duras) utilizadas em programação dinâmica por políticas estocásticas (suaves), denotadas como π(as)\pi(a | s), onde:

π(as)>0sS,aA(s)\pi(a | s) > 0 \qquad \forall s \in S, a \in A(s)

Ou seja, toda ação em cada estado possui uma probabilidade diferente de zero de ser selecionada. Isso garante que todas as partes do ambiente possam eventualmente ser exploradas, o que é essencial ao aprender com a experiência.

Políticas ε\Large\varepsilon-gananciosas

Para incorporar exploração na política, utilizamos o conceito de ε\varepsilon-exploração gananciosa do problema do multi-armed bandit. Isso nos permite definir uma política estocástica que equilibra a exploração da melhor ação conhecida com a exploração de alternativas:

π(as){1ε+εA(s)se a=arg maxaqπ(s,a)εA(s)caso contraˊrio\pi(a | s) \gets \begin{dcases} 1 - \varepsilon + \frac{\varepsilon}{|A(s)|} & \text{se } a = \argmax_{a'} q_\pi(s, a') \\ \frac{\varepsilon}{|A(s)|} & \text{caso contrário} \end{dcases}

Essa política se comporta de forma gananciosa na maior parte do tempo — escolhendo a ação com o maior valor estimado — mas, com probabilidade ε\varepsilon, seleciona uma ação aleatória, garantindo que todas as ações tenham uma chance diferente de zero de serem escolhidas (inclusive a gananciosa novamente, via amostragem uniforme).

À primeira vista, essa abordagem pode parecer problemática: como a política nunca se torna puramente gananciosa, ela nunca irá convergir exatamente para a política ótima. Portanto, não satisfaz estritamente as condições para GPI se esperarmos ótima exatidão no limite.

No entanto, o GPI não exige que a política se torne ótima imediatamente — apenas que cada política melhore (ou permaneça igual) em relação à anterior, avançando progressivamente em direção à otimalidade. A política ε\varepsilon-gananciosa satisfaz essa condição: ela melhora a política em média e garante exploração contínua para apoiar melhores estimativas.

Para resolver a questão da convergência para a política realmente ótima, podemos reduzir gradualmente ε\varepsilon ao longo do tempo. Essa estratégia permite que a política se torne cada vez mais gananciosa à medida que o aprendizado avança. Nos estágios iniciais, a exploração ajuda a coletar experiências diversas, enquanto nos estágios posteriores, o agente explora seu conhecimento aprimorado. Com um ε\varepsilon adequadamente decrescente, o método converge para uma política ótima no limite.

Pseudocódigo

question mark

Como as políticas estocásticas podem ajudar na exploração?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 5
some-alt