Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Modelo, Política y Valores | Teoría Central de RL
Introducción al Aprendizaje por Refuerzo
course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Modelo, Política y Valores

Modelo

Note
Definición

Un modelo es una representación del entorno que define las probabilidades de transición entre estados y las recompensas esperadas por las acciones realizadas.

Los algoritmos de aprendizaje por refuerzo pueden dividirse en dos categorías:

  • Basados en modelo: en este enfoque, el agente aprende o tiene acceso a un modelo del entorno, lo que le permite simular estados y recompensas futuras antes de tomar acciones. Esto permite al agente planificar y tomar decisiones más informadas;
  • Sin modelo: en este enfoque, el agente no dispone de un modelo directo del entorno. Aprende únicamente a través de la interacción con el entorno, basándose en la prueba y error para descubrir las mejores acciones.

En la práctica, los entornos con modelos explícitos son poco comunes, lo que dificulta que los agentes dependan de estrategias basadas en modelos. Como resultado, los enfoques sin modelo se han vuelto más prevalentes y ampliamente estudiados en la investigación y aplicaciones del aprendizaje por refuerzo.

Política

Note
Definición

Política π\pi es la estrategia que sigue un agente para decidir sus acciones en función del estado actual del entorno.

Existen dos tipos de políticas:

  • Política determinista: el agente siempre selecciona la misma acción para un estado dado;
  • Política estocástica: el agente selecciona acciones basándose en distribuciones de probabilidad.

Durante el proceso de aprendizaje, el objetivo del agente es encontrar una política óptima. Una política óptima es aquella que maximiza el retorno esperado, guiando al agente a tomar las mejores decisiones posibles en cualquier estado dado.

Funciones de Valor

Las funciones de valor son fundamentales para comprender cómo un agente evalúa el potencial de un estado o un par estado-acción en particular. Se utilizan para estimar las recompensas esperadas futuras, ayudando al agente a tomar decisiones informadas.

Función de Valor de Estado

Note
Definición

Función de valor de estado VV (o vv) es una función que proporciona el retorno esperado de estar en un estado particular y seguir una política específica. Ayuda a evaluar la deseabilidad de los estados.

El valor de un estado puede expresarse matemáticamente de la siguiente manera:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Función de valor estado-acción

Note
Definición

La función de valor estado-acción QQ (o qq) es una función que proporciona el retorno esperado al tomar una acción particular en un estado dado y seguir una política específica posteriormente. Ayuda a evaluar la conveniencia de las acciones en los estados.

La función de valor estado-acción también se denomina función de valor de acción.

El valor de una acción puede expresarse matemáticamente de la siguiente manera:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relación entre Modelo, Política y Funciones de Valor

Los conceptos de modelo, política y funciones de valor están intrínsecamente vinculados, formando un marco integral para la categorización de algoritmos de aprendizaje por refuerzo. Este marco se define por dos ejes principales:

  • Objetivo de aprendizaje: este eje representa el espectro de algoritmos de RL según su dependencia de funciones de valor, funciones de política o una combinación de ambas;
  • Aplicación del modelo: este eje distingue los algoritmos según si utilizan un modelo del entorno o aprenden únicamente a través de la interacción.

Al combinar estas dimensiones, es posible clasificar los algoritmos de RL en categorías distintas, cada una con su propio conjunto de características y casos de uso ideales. Comprender estas relaciones ayuda a seleccionar el algoritmo adecuado para tareas específicas, asegurando procesos de aprendizaje y toma de decisiones eficientes.

question-icon

Rellena los espacios en blanco

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

course content

Contenido del Curso

Introducción al Aprendizaje por Refuerzo

Introducción al Aprendizaje por Refuerzo

1. Teoría Central de RL
2. Problema del Bandido de Varios Brazos
3. Programación Dinámica
4. Métodos de Monte Carlo
5. Aprendizaje por Diferencia Temporal

book
Modelo, Política y Valores

Modelo

Note
Definición

Un modelo es una representación del entorno que define las probabilidades de transición entre estados y las recompensas esperadas por las acciones realizadas.

Los algoritmos de aprendizaje por refuerzo pueden dividirse en dos categorías:

  • Basados en modelo: en este enfoque, el agente aprende o tiene acceso a un modelo del entorno, lo que le permite simular estados y recompensas futuras antes de tomar acciones. Esto permite al agente planificar y tomar decisiones más informadas;
  • Sin modelo: en este enfoque, el agente no dispone de un modelo directo del entorno. Aprende únicamente a través de la interacción con el entorno, basándose en la prueba y error para descubrir las mejores acciones.

En la práctica, los entornos con modelos explícitos son poco comunes, lo que dificulta que los agentes dependan de estrategias basadas en modelos. Como resultado, los enfoques sin modelo se han vuelto más prevalentes y ampliamente estudiados en la investigación y aplicaciones del aprendizaje por refuerzo.

Política

Note
Definición

Política π\pi es la estrategia que sigue un agente para decidir sus acciones en función del estado actual del entorno.

Existen dos tipos de políticas:

  • Política determinista: el agente siempre selecciona la misma acción para un estado dado;
  • Política estocástica: el agente selecciona acciones basándose en distribuciones de probabilidad.

Durante el proceso de aprendizaje, el objetivo del agente es encontrar una política óptima. Una política óptima es aquella que maximiza el retorno esperado, guiando al agente a tomar las mejores decisiones posibles en cualquier estado dado.

Funciones de Valor

Las funciones de valor son fundamentales para comprender cómo un agente evalúa el potencial de un estado o un par estado-acción en particular. Se utilizan para estimar las recompensas esperadas futuras, ayudando al agente a tomar decisiones informadas.

Función de Valor de Estado

Note
Definición

Función de valor de estado VV (o vv) es una función que proporciona el retorno esperado de estar en un estado particular y seguir una política específica. Ayuda a evaluar la deseabilidad de los estados.

El valor de un estado puede expresarse matemáticamente de la siguiente manera:

vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]\def\E{\operatorname{\mathbb{E}}} v_\pi(s) = \E_\pi[G_t | S_t = s] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s\Biggr]

Función de valor estado-acción

Note
Definición

La función de valor estado-acción QQ (o qq) es una función que proporciona el retorno esperado al tomar una acción particular en un estado dado y seguir una política específica posteriormente. Ayuda a evaluar la conveniencia de las acciones en los estados.

La función de valor estado-acción también se denomina función de valor de acción.

El valor de una acción puede expresarse matemáticamente de la siguiente manera:

qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]\def\E{\operatorname{\mathbb{E}}} q_\pi(s, a) = \E_\pi[G_t | S_t = s, A_t = a] = \E_\pi\Biggl[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a\Biggr]

Relación entre Modelo, Política y Funciones de Valor

Los conceptos de modelo, política y funciones de valor están intrínsecamente vinculados, formando un marco integral para la categorización de algoritmos de aprendizaje por refuerzo. Este marco se define por dos ejes principales:

  • Objetivo de aprendizaje: este eje representa el espectro de algoritmos de RL según su dependencia de funciones de valor, funciones de política o una combinación de ambas;
  • Aplicación del modelo: este eje distingue los algoritmos según si utilizan un modelo del entorno o aprenden únicamente a través de la interacción.

Al combinar estas dimensiones, es posible clasificar los algoritmos de RL en categorías distintas, cada una con su propio conjunto de características y casos de uso ideales. Comprender estas relaciones ayuda a seleccionar el algoritmo adecuado para tareas específicas, asegurando procesos de aprendizaje y toma de decisiones eficientes.

question-icon

Rellena los espacios en blanco

To predict the response of the environment, a can be used.
A
is a model of an agent's behavior.
To determine the value of a/an
, state value function is used.
To determine the value of a/an
, state-action value function is used.

Click or drag`n`drop items and fill in the blanks

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5
some-alt