Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Proceso de Decisión de Markov
El proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar problemas de toma de decisiones donde un agente interactúa con un entorno a lo largo del tiempo.
Los problemas de aprendizaje por refuerzo suelen plantearse como MDP, que proporcionan una forma estructurada de definir el problema. Los MDP describen el entorno utilizando cuatro componentes clave: estados, acciones, transiciones y recompensas. Estos componentes funcionan conjuntamente bajo la propiedad de Markov, que garantiza que el estado futuro depende únicamente del estado y acción actuales, y no de los estados pasados.
Los Cuatro Componentes
Estado
Un estado es una representación del entorno en un momento específico. El conjunto de todos los posibles estados se denomina espacio de estados .
Un estado suele representarse mediante un conjunto de parámetros que capturan las características relevantes del entorno. Estos parámetros pueden incluir diversos aspectos como la posición, velocidad, rotación, etc.
Acción
Una acción es una decisión o movimiento realizado por el agente para influir en el entorno. El conjunto de todas las acciones posibles se denomina espacio de acciones .
El conjunto de acciones posibles generalmente depende del estado actual.
Transición
Transición describe cómo el estado del entorno cambia en respuesta a la acción del agente. La función de transición especifica la probabilidad de pasar de un estado a otro, dado una acción específica.
En muchos casos, los entornos pueden ser deterministas o estocásticos, lo que significa que la transición puede ser predecible o puede incluir cierto grado de aleatoriedad.
Recompensa
Una recompensa es un valor numérico recibido por el agente después de realizar una acción en un estado particular. La función que asigna transiciones a recompensas esperadas se denomina función de recompensa .
Las recompensas guían al agente hacia comportamientos deseables y pueden ser positivas o negativas. La ingeniería de recompensas es compleja, ya que el agente puede intentar explotar las recompensas.
Propiedad de Markov
La propiedad de Markov en un proceso de decisión de Markov establece que el siguiente estado y recompensa dependen únicamente del estado y acción actuales, y no de información pasada. Esto garantiza un marco sin memoria, lo que simplifica el proceso de aprendizaje.
Matemáticamente, esta propiedad puede describirse con la siguiente fórmula:
donde:
- es un estado en el tiempo ;
- es una acción tomada en el tiempo ;
- es una recompensa en el tiempo .
La naturaleza sin memoria de un MDP no significa que las observaciones pasadas sean ignoradas. El estado actual debe codificar toda la información histórica relevante.
¡Gracias por tus comentarios!