Contenido del Curso
Introducción al Aprendizaje por Refuerzo
Introducción al Aprendizaje por Refuerzo
Modelo, Política y Valores
Modelo
Un modelo es una representación del entorno que define las probabilidades de transición entre estados y las recompensas esperadas por las acciones realizadas.
Los algoritmos de aprendizaje por refuerzo pueden dividirse en dos categorías:
- Basados en modelo: en este enfoque, el agente aprende o tiene acceso a un modelo del entorno, lo que le permite simular estados y recompensas futuras antes de tomar acciones. Esto permite al agente planificar y tomar decisiones más informadas;
- Sin modelo: en este enfoque, el agente no dispone de un modelo directo del entorno. Aprende únicamente a través de la interacción con el entorno, basándose en la prueba y error para descubrir las mejores acciones.
En la práctica, los entornos con modelos explícitos son poco comunes, lo que dificulta que los agentes dependan de estrategias basadas en modelos. Como resultado, los enfoques sin modelo se han vuelto más prevalentes y ampliamente estudiados en la investigación y aplicaciones del aprendizaje por refuerzo.
Política
Política es la estrategia que sigue un agente para decidir sus acciones en función del estado actual del entorno.
Existen dos tipos de políticas:
- Política determinista: el agente siempre selecciona la misma acción para un estado dado;
- Política estocástica: el agente selecciona acciones basándose en distribuciones de probabilidad.
Durante el proceso de aprendizaje, el objetivo del agente es encontrar una política óptima. Una política óptima es aquella que maximiza el retorno esperado, guiando al agente a tomar las mejores decisiones posibles en cualquier estado dado.
Funciones de Valor
Las funciones de valor son fundamentales para comprender cómo un agente evalúa el potencial de un estado o un par estado-acción en particular. Se utilizan para estimar las recompensas esperadas futuras, ayudando al agente a tomar decisiones informadas.
Función de Valor de Estado
Función de valor de estado (o ) es una función que proporciona el retorno esperado de estar en un estado particular y seguir una política específica. Ayuda a evaluar la deseabilidad de los estados.
El valor de un estado puede expresarse matemáticamente de la siguiente manera:
Función de valor estado-acción
La función de valor estado-acción (o ) es una función que proporciona el retorno esperado al tomar una acción particular en un estado dado y seguir una política específica posteriormente. Ayuda a evaluar la conveniencia de las acciones en los estados.
La función de valor estado-acción también se denomina función de valor de acción.
El valor de una acción puede expresarse matemáticamente de la siguiente manera:
Relación entre Modelo, Política y Funciones de Valor
Los conceptos de modelo, política y funciones de valor están intrínsecamente vinculados, formando un marco integral para la categorización de algoritmos de aprendizaje por refuerzo. Este marco se define por dos ejes principales:
- Objetivo de aprendizaje: este eje representa el espectro de algoritmos de RL según su dependencia de funciones de valor, funciones de política o una combinación de ambas;
- Aplicación del modelo: este eje distingue los algoritmos según si utilizan un modelo del entorno o aprenden únicamente a través de la interacción.
Al combinar estas dimensiones, es posible clasificar los algoritmos de RL en categorías distintas, cada una con su propio conjunto de características y casos de uso ideales. Comprender estas relaciones ayuda a seleccionar el algoritmo adecuado para tareas específicas, asegurando procesos de aprendizaje y toma de decisiones eficientes.
¡Gracias por tus comentarios!