Controle Monte Carlo On-Policy
A ideia por trás dos métodos on-policy é intuitiva: um agente aprende seguindo sua política atual e aprimora essa política com base nos resultados que experimenta. Para descobrir ações melhores e evitar ficar preso em comportamentos subótimos, o agente incorpora um grau de aleatoriedade — ocasionalmente tentando ações alternativas para incentivar a exploração.
Analogia
Imagine que você está em uma sorveteria e há três sabores disponíveis: chocolate, baunilha e morango. Você adora chocolate, então normalmente escolhe esse sabor. Mas um dia, por curiosidade, você decide experimentar o morango. Descobre que o sorvete de morango dessa sorveteria é incrivelmente saboroso e, a partir de então, decide escolhê-lo sempre que visitar esse local.
Experimentar um novo sabor não foi necessariamente a escolha mais lógica com base na experiência anterior, mas proporcionou a oportunidade de descobrir algo novo. Esse tipo de exploração está no cerne dos métodos on-policy.
Políticas Estocásticas
Formalmente, adotar essa ideia significa substituir as políticas determinísticas (duras) usadas em programação dinâmica por políticas estocásticas (suaves), denotadas como π(a∣s), onde:
π(a∣s)>0∀s∈S,a∈A(s)Em outras palavras, toda ação em cada estado possui uma probabilidade diferente de zero de ser selecionada. Isso garante que todas as partes do ambiente possam eventualmente ser exploradas, o que é essencial ao aprender com a experiência.
Políticas ε-gananciosas
Para incorporar exploração na política, utilizamos o conceito de ε-gananciosa proveniente do problema do multi-armed bandit. Isso permite definir uma política estocástica que equilibra a exploração da melhor ação conhecida com a exploração de alternativas:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εse a=a′argmaxqπ(s,a′)caso contraˊrioEssa política se comporta de forma gananciosa na maior parte do tempo — escolhendo a ação com o maior valor estimado — mas, com probabilidade ε, seleciona uma ação aleatória, garantindo que todas as ações tenham uma chance diferente de zero de serem escolhidas (inclusive a gananciosa novamente, via amostragem uniforme).
À primeira vista, essa abordagem pode parecer problemática: como a política nunca se torna puramente gananciosa, ela nunca irá convergir exatamente para a política ótima. Portanto, não satisfaz estritamente as condições para GPI se esperarmos ótima exatidão no limite.
No entanto, GPI não exige que a política se torne ótima imediatamente — apenas que cada política melhore (ou permaneça igual) em relação à anterior, aproximando-se progressivamente da otimalidade. A política ε-gananciosa satisfaz essa condição: ela melhora a política em média e garante exploração contínua para suportar melhores estimativas.
Para resolver a questão da convergência para a política realmente ótima, podemos reduzir gradualmente ε ao longo do tempo. Essa estratégia permite que a política se torne cada vez mais gananciosa à medida que o aprendizado avança. Nos estágios iniciais, a exploração auxilia na obtenção de experiências diversas, enquanto nos estágios posteriores, o agente explora seu conhecimento aprimorado. Com um ε adequadamente decrescente, o método converge para uma política ótima no limite.
Pseudocódigo
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain the difference between on-policy and off-policy methods?
How does the ε-greedy policy work in practice?
Why is it important to reduce ε over time?
Awesome!
Completion rate improved to 2.7
Controle Monte Carlo On-Policy
Deslize para mostrar o menu
A ideia por trás dos métodos on-policy é intuitiva: um agente aprende seguindo sua política atual e aprimora essa política com base nos resultados que experimenta. Para descobrir ações melhores e evitar ficar preso em comportamentos subótimos, o agente incorpora um grau de aleatoriedade — ocasionalmente tentando ações alternativas para incentivar a exploração.
Analogia
Imagine que você está em uma sorveteria e há três sabores disponíveis: chocolate, baunilha e morango. Você adora chocolate, então normalmente escolhe esse sabor. Mas um dia, por curiosidade, você decide experimentar o morango. Descobre que o sorvete de morango dessa sorveteria é incrivelmente saboroso e, a partir de então, decide escolhê-lo sempre que visitar esse local.
Experimentar um novo sabor não foi necessariamente a escolha mais lógica com base na experiência anterior, mas proporcionou a oportunidade de descobrir algo novo. Esse tipo de exploração está no cerne dos métodos on-policy.
Políticas Estocásticas
Formalmente, adotar essa ideia significa substituir as políticas determinísticas (duras) usadas em programação dinâmica por políticas estocásticas (suaves), denotadas como π(a∣s), onde:
π(a∣s)>0∀s∈S,a∈A(s)Em outras palavras, toda ação em cada estado possui uma probabilidade diferente de zero de ser selecionada. Isso garante que todas as partes do ambiente possam eventualmente ser exploradas, o que é essencial ao aprender com a experiência.
Políticas ε-gananciosas
Para incorporar exploração na política, utilizamos o conceito de ε-gananciosa proveniente do problema do multi-armed bandit. Isso permite definir uma política estocástica que equilibra a exploração da melhor ação conhecida com a exploração de alternativas:
π(a∣s)←⎩⎨⎧1−ε+∣A(s)∣ε∣A(s)∣εse a=a′argmaxqπ(s,a′)caso contraˊrioEssa política se comporta de forma gananciosa na maior parte do tempo — escolhendo a ação com o maior valor estimado — mas, com probabilidade ε, seleciona uma ação aleatória, garantindo que todas as ações tenham uma chance diferente de zero de serem escolhidas (inclusive a gananciosa novamente, via amostragem uniforme).
À primeira vista, essa abordagem pode parecer problemática: como a política nunca se torna puramente gananciosa, ela nunca irá convergir exatamente para a política ótima. Portanto, não satisfaz estritamente as condições para GPI se esperarmos ótima exatidão no limite.
No entanto, GPI não exige que a política se torne ótima imediatamente — apenas que cada política melhore (ou permaneça igual) em relação à anterior, aproximando-se progressivamente da otimalidade. A política ε-gananciosa satisfaz essa condição: ela melhora a política em média e garante exploração contínua para suportar melhores estimativas.
Para resolver a questão da convergência para a política realmente ótima, podemos reduzir gradualmente ε ao longo do tempo. Essa estratégia permite que a política se torne cada vez mais gananciosa à medida que o aprendizado avança. Nos estágios iniciais, a exploração auxilia na obtenção de experiências diversas, enquanto nos estágios posteriores, o agente explora seu conhecimento aprimorado. Com um ε adequadamente decrescente, o método converge para uma política ótima no limite.
Pseudocódigo
Obrigado pelo seu feedback!