Aprende Proceso de Decisión de Markov

Definición

Proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar problemas de toma de decisiones donde un agente interactúa con un entorno a lo largo del tiempo.

Los problemas de aprendizaje por refuerzo suelen enmarcarse como MDP, que proporcionan una forma estructurada de definir el problema. Los MDP describen el entorno utilizando cuatro componentes clave: estados, acciones, transiciones y recompensas. Estos componentes funcionan conjuntamente bajo la propiedad de Markov, que garantiza que el estado futuro depende únicamente del estado y acción actuales, y no de los estados pasados.

Los cuatro componentes

Estado

Definición

Un estado $s$ es una representación del entorno en un momento específico. El conjunto de todos los posibles estados se denomina espacio de estados $S$ .

Un estado suele representarse mediante un conjunto de parámetros que capturan las características relevantes del entorno. Estos parámetros pueden incluir diversos aspectos como la posición, velocidad, rotación, etc.

Acción

Definición

Una acción $a$ es una decisión o movimiento realizado por el agente para influir en el entorno. El conjunto de todas las acciones posibles se denomina espacio de acciones $A$ .

El conjunto de acciones posibles generalmente depende del estado actual.

Transición

Definición

Transición describe cómo el estado del entorno cambia en respuesta a la acción del agente. La función de transición $p$ especifica la probabilidad de pasar de un estado a otro, dada una acción específica.

En muchos casos, los entornos pueden ser deterministas o estocásticos, lo que significa que la transición puede ser predecible o puede incluir cierto grado de aleatoriedad.

Recompensa

Definición

Una recompensa $r$ es un valor numérico recibido por el agente después de realizar una acción en un estado particular. La función que asigna transiciones a recompensas esperadas se denomina función de recompensa $R$ .

Las recompensas guían al agente hacia comportamientos deseables y pueden ser positivas o negativas. La ingeniería de recompensas es compleja, ya que el agente puede intentar explotar las recompensas.

Propiedad de Markov

La propiedad de Markov en un proceso de decisión de Markov establece que el siguiente estado y recompensa dependen únicamente del estado y acción actuales, y no de información pasada. Esto garantiza un marco sin memoria, lo que simplifica el proceso de aprendizaje.

Matemáticamente, esta propiedad puede describirse con la siguiente fórmula:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

donde:

$S_t$ es un estado en el tiempo $t$ ;
$A_t$ es una acción tomada en el tiempo $t$ ;
$R_t$ es una recompensa en el tiempo $t$ .

Nota

La naturaleza sin memoria de un MDP no significa que las observaciones pasadas sean ignoradas. El estado actual debe codificar toda la información histórica relevante.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 2.7

Desliza para mostrar el menú

Definición

Proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar problemas de toma de decisiones donde un agente interactúa con un entorno a lo largo del tiempo.

Los cuatro componentes

Estado

Definición

Un estado $s$ es una representación del entorno en un momento específico. El conjunto de todos los posibles estados se denomina espacio de estados $S$ .

Acción

Definición

Una acción $a$ es una decisión o movimiento realizado por el agente para influir en el entorno. El conjunto de todas las acciones posibles se denomina espacio de acciones $A$ .

El conjunto de acciones posibles generalmente depende del estado actual.

Transición

Definición

En muchos casos, los entornos pueden ser deterministas o estocásticos, lo que significa que la transición puede ser predecible o puede incluir cierto grado de aleatoriedad.

Recompensa

Definición

Propiedad de Markov

Matemáticamente, esta propiedad puede describirse con la siguiente fórmula:

\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

donde:

$S_t$ es un estado en el tiempo $t$ ;
$A_t$ es una acción tomada en el tiempo $t$ ;
$R_t$ es una recompensa en el tiempo $t$ .

Nota

La naturaleza sin memoria de un MDP no significa que las observaciones pasadas sean ignoradas. El estado actual debe codificar toda la información histórica relevante.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3