Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Introducción al Problema
El problema del bandido de múltiples brazos (MAB) es un desafío ampliamente reconocido en el aprendizaje por refuerzo, la toma de decisiones y la teoría de la probabilidad. Consiste en que un agente elige repetidamente entre múltiples acciones, cada una ofreciendo una recompensa proveniente de una distribución de probabilidad fija. El objetivo es maximizar el retorno durante un número fijo de pasos de tiempo.
Origen del problema
El término "bandido de múltiples brazos" proviene de la analogía con una máquina tragamonedas, comúnmente llamada "bandido de un solo brazo" debido a su palanca. En este escenario, imagina tener múltiples máquinas tragamonedas, o una máquina tragamonedas con múltiples palancas (brazos), y cada brazo está asociado a una distribución de probabilidad distinta para las recompensas. El objetivo es maximizar el retorno en un número limitado de intentos eligiendo cuidadosamente qué palanca accionar.
El Desafío
El problema de MAB representa el desafío de equilibrar la exploración y la explotación:
- Exploración: probar diferentes brazos para recopilar información sobre sus recompensas;
- Explotación: seleccionar el brazo que actualmente parece el mejor para maximizar las recompensas inmediatas.
Un enfoque ingenuo — jugar repetidamente un solo brazo — puede conducir a retornos subóptimos si existe un brazo mejor que permanece sin explorar. Por el contrario, una exploración excesiva puede desperdiciar recursos en opciones de baja recompensa.
Aplicaciones en el Mundo Real
Aunque originalmente se planteó en el ámbito de los juegos de azar, el problema del MAB aparece en muchos campos:
- Publicidad en línea: selección del mejor anuncio para mostrar según la interacción del usuario;
- Ensayos clínicos: prueba de múltiples tratamientos para encontrar el más efectivo;
- Sistemas de recomendación: entrega del contenido más relevante a los usuarios.
¡Gracias por tus comentarios!