Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Proceso de Decisión de Markov | Teoría Central de RL
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Proceso de Decisión de Markov

Note
Definición

El proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar problemas de toma de decisiones donde un agente interactúa con un entorno a lo largo del tiempo.

Los problemas de aprendizaje por refuerzo suelen plantearse como MDP, que proporcionan una forma estructurada de definir el problema. Los MDP describen el entorno utilizando cuatro componentes clave: estados, acciones, transiciones y recompensas. Estos componentes funcionan conjuntamente bajo la propiedad de Markov, que garantiza que el estado futuro depende únicamente del estado y acción actuales, y no de los estados pasados.

Los Cuatro Componentes

Estado

Note
Definición

Un estado ss es una representación del entorno en un momento específico. El conjunto de todos los posibles estados se denomina espacio de estados SS.

Un estado suele representarse mediante un conjunto de parámetros que capturan las características relevantes del entorno. Estos parámetros pueden incluir diversos aspectos como la posición, velocidad, rotación, etc.

Acción

Note
Definición

Una acción aa es una decisión o movimiento realizado por el agente para influir en el entorno. El conjunto de todas las acciones posibles se denomina espacio de acciones AA.

El conjunto de acciones posibles generalmente depende del estado actual.

Transición

Note
Definición

Transición describe cómo el estado del entorno cambia en respuesta a la acción del agente. La función de transición pp especifica la probabilidad de pasar de un estado a otro, dado una acción específica.

En muchos casos, los entornos pueden ser deterministas o estocásticos, lo que significa que la transición puede ser predecible o puede incluir cierto grado de aleatoriedad.

Recompensa

Note
Definición

Una recompensa rr es un valor numérico recibido por el agente después de realizar una acción en un estado particular. La función que asigna transiciones a recompensas esperadas se denomina función de recompensa RR.

Las recompensas guían al agente hacia comportamientos deseables y pueden ser positivas o negativas. La ingeniería de recompensas es compleja, ya que el agente puede intentar explotar las recompensas.

Propiedad de Markov

La propiedad de Markov en un proceso de decisión de Markov establece que el siguiente estado y recompensa dependen únicamente del estado y acción actuales, y no de información pasada. Esto garantiza un marco sin memoria, lo que simplifica el proceso de aprendizaje.

Matemáticamente, esta propiedad puede describirse con la siguiente fórmula:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

donde:

  • StS_t es un estado en el tiempo tt;
  • AtA_t es una acción tomada en el tiempo tt;
  • RtR_t es una recompensa en el tiempo tt.
Note
Nota

La naturaleza sin memoria de un MDP no significa que las observaciones pasadas sean ignoradas. El estado actual debe codificar toda la información histórica relevante.

question mark

Imagina que el agente juega un juego. ¿Cuál de las siguientes es una buena representación del estado de un entorno en un MDP?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Proceso de Decisión de Markov

Note
Definición

El proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar problemas de toma de decisiones donde un agente interactúa con un entorno a lo largo del tiempo.

Los problemas de aprendizaje por refuerzo suelen plantearse como MDP, que proporcionan una forma estructurada de definir el problema. Los MDP describen el entorno utilizando cuatro componentes clave: estados, acciones, transiciones y recompensas. Estos componentes funcionan conjuntamente bajo la propiedad de Markov, que garantiza que el estado futuro depende únicamente del estado y acción actuales, y no de los estados pasados.

Los Cuatro Componentes

Estado

Note
Definición

Un estado ss es una representación del entorno en un momento específico. El conjunto de todos los posibles estados se denomina espacio de estados SS.

Un estado suele representarse mediante un conjunto de parámetros que capturan las características relevantes del entorno. Estos parámetros pueden incluir diversos aspectos como la posición, velocidad, rotación, etc.

Acción

Note
Definición

Una acción aa es una decisión o movimiento realizado por el agente para influir en el entorno. El conjunto de todas las acciones posibles se denomina espacio de acciones AA.

El conjunto de acciones posibles generalmente depende del estado actual.

Transición

Note
Definición

Transición describe cómo el estado del entorno cambia en respuesta a la acción del agente. La función de transición pp especifica la probabilidad de pasar de un estado a otro, dado una acción específica.

En muchos casos, los entornos pueden ser deterministas o estocásticos, lo que significa que la transición puede ser predecible o puede incluir cierto grado de aleatoriedad.

Recompensa

Note
Definición

Una recompensa rr es un valor numérico recibido por el agente después de realizar una acción en un estado particular. La función que asigna transiciones a recompensas esperadas se denomina función de recompensa RR.

Las recompensas guían al agente hacia comportamientos deseables y pueden ser positivas o negativas. La ingeniería de recompensas es compleja, ya que el agente puede intentar explotar las recompensas.

Propiedad de Markov

La propiedad de Markov en un proceso de decisión de Markov establece que el siguiente estado y recompensa dependen únicamente del estado y acción actuales, y no de información pasada. Esto garantiza un marco sin memoria, lo que simplifica el proceso de aprendizaje.

Matemáticamente, esta propiedad puede describirse con la siguiente fórmula:

P(Rt+1=r,St+1=sSt,At)==P(Rt+1=r,St+1=sS0,A0,R1,...,St1,At1,Rt,St,At)\begin{aligned} &P(R_{t+1} = r, S_{t+1} = s' | S_t, A_t)=\\ =&P(R_{t+1} = r, S_{t+1} = s' | S_0, A_0, R_1,..., S_{t-1}, A_{t-1}, R_t, S_t, A_t) \end{aligned}

donde:

  • StS_t es un estado en el tiempo tt;
  • AtA_t es una acción tomada en el tiempo tt;
  • RtR_t es una recompensa en el tiempo tt.
Note
Nota

La naturaleza sin memoria de un MDP no significa que las observaciones pasadas sean ignoradas. El estado actual debe codificar toda la información histórica relevante.

question mark

Imagina que el agente juega un juego. ¿Cuál de las siguientes es una buena representación del estado de un entorno en un MDP?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3
some-alt