Summary  
This chapter explains the exploration vs. exploitation trade-off, a decision-making strategy where an algorithm balances trying new actions to gather information against using known rewarding actions to maximize long-term gains.

General domain of usage  
Recommendation systems

O problema de **exploração versus exploração** é um dilema fundamental em aprendizado por reforço. Ele surge quando um agente precisa escolher entre duas estratégias concorrentes:

1. **Exploração**: testar novas opções para obter mais informações, mesmo que a recompensa imediata seja incerta;
2. **Exploração**: selecionar a melhor opção conhecida com base em experiências anteriores para maximizar as recompensas imediatas.

Esse problema ocorre em cenários onde as decisões influenciam resultados futuros. Se um agente apenas **explora** o que já conhece, pode perder oportunidades melhores. Por outro lado, a **exploração** excessiva pode levar a riscos desnecessários ou desperdício de recursos sem garantir melhores resultados.

- **Recomendações online**: um serviço de streaming pode recomendar um filme popular **(exploração)** ou sugerir um filme menos conhecido para aprender sobre as preferências do usuário **(exploração)**;
- **Desenvolvimento de produtos**: uma empresa pode focar em aprimorar um produto popular que tem sido consistentemente bem-sucedido no mercado **(exploração)** ou investir no desenvolvimento de novos produtos ou funcionalidades **(exploração)**;
- **Estratégias de investimento**: um investidor deve decidir se investe em ações com bom desempenho **(exploração)** ou experimenta novos investimentos que podem gerar retornos mais altos **(exploração)**.

A dificuldade está em equilibrar essas duas estratégias de forma eficaz. Explorar demais o **aproveitamento** pode levar a ganhos subótimos no longo prazo, enquanto o excesso de **exploração** pode ser ineficiente e custoso. O essencial é encontrar um equilíbrio ideal que maximize os benefícios a longo prazo, minimizando os riscos.

Embora existam vários métodos para equilibrar **exploração** e **aproveitamento**, cada problema pode exigir uma **abordagem personalizada**, considerando fatores como a estrutura de recompensas, a taxa de mudança no ambiente e o nível de incerteza sobre as consequências de diferentes ações.


Nota

Você está treinando um agente de aprendizado por reforço para navegar em um labirinto. Após muito tempo, ele aprendeu a sair do labirinto de forma confiável, mas o caminho que utiliza está longe de ser o ideal. O que você faria?

O Aprendizado por Reforço (RL) é um ramo poderoso do aprendizado de máquina focado no treinamento de agentes inteligentes por meio da interação com seu ambiente. Neste curso, você aprenderá como os agentes descobrem gradualmente comportamentos eficazes através de tentativa e erro. Começando com conceitos fundamentais como processos de decisão de Markov e multi-armed bandits, você avançará por programação dinâmica, métodos de Monte Carlo e aprendizado por diferença temporal.

Descubra como treinar agentes para tomar decisões ótimas por meio de tentativa e erro.
Explore os fundamentos da teoria de aprendizado por reforço.
Obtenha experiência prática configurando e executando um ambiente Gymnasium.

Domínio do equilíbrio entre exploração e exploração por meio do problema do bandido de múltiplos braços. Implementação de estimativa de valor de ação, métodos ε-greedy, limite superior de confiança e bandido de gradiente. Avaliação do desempenho dos algoritmos em tarefas simuladas de maximização de recompensa.

Domínio da programação dinâmica para RL baseado em modelos.
Descoberta de como as equações de Bellman podem ser utilizadas para avaliar e aprimorar políticas.
Implementação dos algoritmos de iteração de política e de valor.
Exploração da iteração generalizada de políticas como base teórica para métodos sem modelo.

Domínio dos métodos de Monte Carlo para RL sem modelo. Estimativa de funções de valor e derivação de políticas ótimas a partir de episódios completos. Implementação de algoritmos de controle de Monte Carlo on-policy e off-policy. Exploração de estratégias de exploração para otimizar o aprendizado sem modelo.

Domínio do aprendizado por diferença temporal para RL sem modelo. Estimativa de funções de valor a partir de episódios parciais utilizando atualizações TD(0). Implementação dos algoritmos SARSA on-policy e Q-Learning off-policy. Exploração da combinação entre métodos de Monte Carlo e aprendizado por diferença temporal em TD de n passos e TD(λ).

Exploração vs Exploração

O Dilema

Exemplos do Mundo Real

O Desafio