Conteúdo do Curso
Introdução ao Aprendizado por Reforço
Introdução ao Aprendizado por Reforço
Introdução ao Problema
O problema do multi-armed bandit (MAB) é um desafio amplamente reconhecido em aprendizado por reforço, tomada de decisão e teoria das probabilidades. Consiste em um agente que escolhe repetidamente entre múltiplas ações, cada uma oferecendo uma recompensa proveniente de uma distribuição de probabilidade fixa. O objetivo é maximizar o retorno ao longo de um número fixo de passos de tempo.
Origem do Problema
O termo "multi-armed bandit" tem origem na analogia com uma máquina caça-níqueis, frequentemente chamada de "one-armed bandit" devido à sua alavanca. Neste cenário, imagine várias máquinas caça-níqueis, ou uma máquina com múltiplas alavancas (braços), sendo que cada braço está associado a uma distribuição de probabilidade distinta para as recompensas. O objetivo é maximizar o retorno em um número limitado de tentativas, escolhendo cuidadosamente qual alavanca acionar.
O Desafio
O problema do MAB representa o desafio de equilibrar exploração e exploração:
- Exploração: testar diferentes braços para coletar informações sobre seus retornos;
- Exploração: selecionar o braço que atualmente parece ser o melhor para maximizar as recompensas imediatas.
Uma abordagem ingênua — jogar repetidamente com um único braço — pode resultar em retornos subótimos caso exista um braço melhor que permaneça inexplorado. Por outro lado, exploração excessiva pode desperdiçar recursos em opções de baixo retorno.
Aplicações no Mundo Real
Embora originalmente associado a jogos de azar, o problema do MAB aparece em diversas áreas:
- Publicidade online: seleção do melhor anúncio para exibir com base no engajamento do usuário;
- Ensaios clínicos: teste de múltiplos tratamentos para identificar o mais eficaz;
- Sistemas de recomendação: fornecimento do conteúdo mais relevante para os usuários.
Obrigado pelo seu feedback!