Aprende Modelo, Política y Valores | Teoría Central de RL

Modelo

Definición

Un modelo es una representación del entorno que define las probabilidades de transición entre estados y las recompensas esperadas para las acciones realizadas.

Los algoritmos de aprendizaje por refuerzo pueden dividirse en dos categorías:

Basados en modelo: en este enfoque, el agente aprende o tiene acceso a un modelo del entorno, lo que le permite simular estados futuros y recompensas antes de tomar acciones. Esto permite al agente planificar y tomar decisiones más informadas;
Sin modelo: en este enfoque, el agente no dispone de un modelo directo del entorno. Aprende únicamente a través de la interacción con el entorno, basándose en la prueba y error para descubrir las mejores acciones.

En la práctica, los entornos con modelos explícitos son poco comunes, lo que dificulta que los agentes dependan de estrategias basadas en modelos. Como resultado, los enfoques sin modelo se han vuelto más prevalentes y ampliamente estudiados en la investigación y aplicaciones del aprendizaje por refuerzo.

Política

Definición

Política $\pi$ es la estrategia que sigue un agente para decidir sus acciones en función del estado actual del entorno.

Existen dos tipos de políticas:

Política determinista: el agente siempre selecciona la misma acción para un estado dado;
Política estocástica: el agente selecciona acciones basándose en distribuciones de probabilidad.

Durante el proceso de aprendizaje, el objetivo del agente es encontrar una política óptima. Una política óptima es aquella que maximiza el retorno esperado, guiando al agente a tomar las mejores decisiones posibles en cualquier estado dado.

Funciones de valor

Las funciones de valor son fundamentales para comprender cómo un agente evalúa el potencial de un estado o de un par estado-acción en particular. Se utilizan para estimar las recompensas esperadas futuras, ayudando al agente a tomar decisiones informadas.

Función de Valor de Estado

Definición

Función de valor de estado $V$ (o $v$ ) es una función que proporciona el retorno esperado de estar en un estado particular y seguir una política específica. Ayuda a evaluar la deseabilidad de los estados.

El valor de un estado puede expresarse matemáticamente de la siguiente manera:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Función de valor estado-acción

Definición

Función de valor estado-acción $Q$ (o $q$ ) es una función que proporciona el retorno esperado de tomar una acción particular en un estado dado y seguir una política específica posteriormente. Ayuda a evaluar la conveniencia de las acciones en los estados.

Función de valor estado-acción también se denomina función de valor de acción.

El valor de una acción puede expresarse matemáticamente de la siguiente manera:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relación entre el Modelo, la Política y las Funciones de Valor

Los conceptos de modelo, política y funciones de valor están estrechamente vinculados, formando un marco integral para la categorización de los algoritmos de aprendizaje por refuerzo (RL). Este marco se define por dos ejes principales:

Objetivo de aprendizaje: este eje representa el espectro de algoritmos de RL según su dependencia de funciones de valor, funciones de política o una combinación de ambas;
Aplicación del modelo: este eje distingue los algoritmos según si utilizan un modelo del entorno o aprenden únicamente a través de la interacción.

Al combinar estas dimensiones, es posible clasificar los algoritmos de RL en categorías distintas, cada una con su propio conjunto de características y casos de uso ideales. Comprender estas relaciones ayuda a seleccionar el algoritmo adecuado para tareas específicas, asegurando procesos de aprendizaje y toma de decisiones eficientes.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú

Modelo

Definición

Un modelo es una representación del entorno que define las probabilidades de transición entre estados y las recompensas esperadas para las acciones realizadas.

Los algoritmos de aprendizaje por refuerzo pueden dividirse en dos categorías:

Basados en modelo: en este enfoque, el agente aprende o tiene acceso a un modelo del entorno, lo que le permite simular estados futuros y recompensas antes de tomar acciones. Esto permite al agente planificar y tomar decisiones más informadas;
Sin modelo: en este enfoque, el agente no dispone de un modelo directo del entorno. Aprende únicamente a través de la interacción con el entorno, basándose en la prueba y error para descubrir las mejores acciones.

Política

Definición

Política $\pi$ es la estrategia que sigue un agente para decidir sus acciones en función del estado actual del entorno.

Existen dos tipos de políticas:

Política determinista: el agente siempre selecciona la misma acción para un estado dado;
Política estocástica: el agente selecciona acciones basándose en distribuciones de probabilidad.

Funciones de valor

Función de Valor de Estado

Definición

El valor de un estado puede expresarse matemáticamente de la siguiente manera:

\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Función de valor estado-acción

Definición

Función de valor estado-acción también se denomina función de valor de acción.

El valor de una acción puede expresarse matemáticamente de la siguiente manera:

\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relación entre el Modelo, la Política y las Funciones de Valor

Objetivo de aprendizaje: este eje representa el espectro de algoritmos de RL según su dependencia de funciones de valor, funciones de política o una combinación de ambas;
Aplicación del modelo: este eje distingue los algoritmos según si utilizan un modelo del entorno o aprenden únicamente a través de la interacción.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5