Aprende Propagación Hacia Atrás | Red Neuronal Desde Cero

La propagación hacia atrás, o retropropagación, es el proceso de determinar cómo la función de pérdida cambia con respecto a cada parámetro en la red neuronal. El objetivo es ajustar estos parámetros de manera que se reduzca la pérdida total.

Este proceso se basa en el algoritmo de descenso de gradiente, que utiliza las derivadas de la pérdida con respecto a los valores de preactivación de cada capa (las salidas brutas antes de aplicar la función de activación) y las propaga hacia atrás a través de la red.

Dado que cada capa contribuye a la predicción final, los gradientes se calculan paso a paso:

Realizar la propagación hacia adelante para obtener las salidas;
Calcular la derivada de la pérdida con respecto a la preactivación de la salida;
Propagar esta derivada hacia atrás a través de las capas utilizando la regla de la cadena;
Calcular y utilizar los gradientes para los pesos y sesgos para actualizarlos durante el entrenamiento.

Nota

Los gradientes representan la tasa de cambio de una función con respecto a sus entradas, es decir, son sus derivadas. Indican cuánto afecta un pequeño cambio en los pesos, sesgos o activaciones a la función de pérdida, guiando el proceso de aprendizaje del modelo mediante el descenso de gradiente.

Notación

Para clarificar la explicación, se utilizará la siguiente notación:

$W^l$ es la matriz de pesos de la capa $l$ ;
$b^l$ es el vector de sesgos de la capa $l$ ;
$z^l$ es el vector de preactivaciones de la capa $l$ ;
$a^l$ es el vector de activaciones de la capa $l$ ;

Por lo tanto, estableciendo $a^0$ como $x$ (las entradas), la propagación hacia adelante en un perceptrón con n capas puede describirse como la siguiente secuencia de operaciones:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Para describir la retropropagación matemáticamente, se introducen las siguientes notaciones:

$da^l$ : derivada de la pérdida con respecto a las activaciones en la capa $l$ ;
$dz^l$ : derivada de la pérdida con respecto a las pre-activaciones en la capa $l$ (antes de aplicar la función de activación);
$dW^l$ : derivada de la pérdida con respecto a los pesos en la capa $l$ ;
$db^l$ : derivada de la pérdida con respecto a los sesgos en la capa $l$ .

Cálculo de Gradientes para la Capa de Salida

En la capa final $n$ , el primer paso es calcular el gradiente de la pérdida con respecto a las activaciones de la capa de salida, denotado como $da^n$ .

Luego, utilizando la regla de la cadena, el gradiente de la pérdida con respecto a las pre-activaciones de la capa de salida se calcula como:

dz^n = da^n \odot f'^n(z^n)

Aquí, $f'^n(z^n)$ representa la derivada de la función de activación en la capa $n$ , y el símbolo $\odot$ denota la multiplicación elemento a elemento.

Nota

El símbolo $\odot$ denota la multiplicación elemento a elemento, lo que significa que cada elemento de un vector se multiplica por el elemento correspondiente de otro vector. En contraste, el símbolo $\cdot$ representa el producto punto, utilizado para la multiplicación estándar de matrices o vectores. El término $f'^n$ se refiere a la derivada de la función de activación en la capa de salida.

Este valor indica la sensibilidad de la función de pérdida ante cambios en los valores de preactivación de la capa de salida.

Después de calcular $dz^n$ , el siguiente paso es obtener los gradientes para los pesos y los sesgos:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Estos gradientes describen cuánto debe ajustarse cada peso y sesgo en la capa de salida para reducir la pérdida.

Aquí, $(a^{n-1})^T$ es el vector de activación transpuesto de la capa anterior. Si el vector original tiene la forma $n_{\text{neurons}} \times 1$ , su transpuesta tiene la forma $1 \times n_{\text{neurons}}$ .

Para continuar con la retropropagación, se calcula la derivada de la pérdida respecto a las activaciones de la capa anterior como:

da^{n-1} = (W^n)^T \cdot dz^n

Esta expresión permite que la señal de error se propague hacia atrás a través de la red, posibilitando el ajuste de las capas anteriores durante el entrenamiento.

Propagación de Gradientes a las Capas Ocultas

Para cada capa oculta $l$ el procedimiento es el mismo. Dado $da^l$ :

Calcular la derivada de la pérdida respecto a las preactivaciones;
Calcular los gradientes para los pesos y los sesgos;
Calcular $da^{l-1}$ para propagar la derivada hacia atrás.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Este proceso se repite para cada capa anterior, paso a paso, hasta que se alcanza la capa de entrada.

Actualización de pesos y sesgos

Después de calcular los gradientes para todas las capas, los pesos y sesgos se actualizan utilizando el algoritmo de descenso de gradiente:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Aquí, $\alpha$ representa la tasa de aprendizaje, que controla cuánto se ajustan los parámetros durante cada paso de entrenamiento.

Aquí, $\alpha$ es la tasa de aprendizaje, un hiperparámetro que determina el tamaño del ajuste aplicado a los pesos y sesgos durante cada paso de actualización.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 7

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain how the chain rule is applied in backpropagation?

What is the difference between pre-activations and activations in a neural network?

Can you provide an example of calculating gradients for a simple neural network?

Awesome!

Completion rate improved to 4

Desliza para mostrar el menú

Dado que cada capa contribuye a la predicción final, los gradientes se calculan paso a paso:

Realizar la propagación hacia adelante para obtener las salidas;
Calcular la derivada de la pérdida con respecto a la preactivación de la salida;
Propagar esta derivada hacia atrás a través de las capas utilizando la regla de la cadena;
Calcular y utilizar los gradientes para los pesos y sesgos para actualizarlos durante el entrenamiento.

Nota

Notación

Para clarificar la explicación, se utilizará la siguiente notación:

$W^l$ es la matriz de pesos de la capa $l$ ;
$b^l$ es el vector de sesgos de la capa $l$ ;
$z^l$ es el vector de preactivaciones de la capa $l$ ;
$a^l$ es el vector de activaciones de la capa $l$ ;

Por lo tanto, estableciendo $a^0$ como $x$ (las entradas), la propagación hacia adelante en un perceptrón con n capas puede describirse como la siguiente secuencia de operaciones:

\begin{aligned} a^0 &= x, & &... & &...\\ z^1 &= W^1 a^0 + b^1, & z^l &= W^l a^{l-1} + b^l, & z^n &= W^n a^{n-1} + b^n,\\ a^1 &= f^1(z^1), & a^l &= f^l(z^l), & a^n &= f^n(z^n),\\ &... & &... & \hat y &= a^n. \end{aligned}

Para describir la retropropagación matemáticamente, se introducen las siguientes notaciones:

$da^l$ : derivada de la pérdida con respecto a las activaciones en la capa $l$ ;
$dz^l$ : derivada de la pérdida con respecto a las pre-activaciones en la capa $l$ (antes de aplicar la función de activación);
$dW^l$ : derivada de la pérdida con respecto a los pesos en la capa $l$ ;
$db^l$ : derivada de la pérdida con respecto a los sesgos en la capa $l$ .

Cálculo de Gradientes para la Capa de Salida

En la capa final $n$ , el primer paso es calcular el gradiente de la pérdida con respecto a las activaciones de la capa de salida, denotado como $da^n$ .

Luego, utilizando la regla de la cadena, el gradiente de la pérdida con respecto a las pre-activaciones de la capa de salida se calcula como:

dz^n = da^n \odot f'^n(z^n)

Aquí, $f'^n(z^n)$ representa la derivada de la función de activación en la capa $n$ , y el símbolo $\odot$ denota la multiplicación elemento a elemento.

Nota

Este valor indica la sensibilidad de la función de pérdida ante cambios en los valores de preactivación de la capa de salida.

Después de calcular $dz^n$ , el siguiente paso es obtener los gradientes para los pesos y los sesgos:

\begin{aligned} dW^n &= dz^n \cdot (a^{n-1})^T,\\ db^n &= dz^n \end{aligned}

Estos gradientes describen cuánto debe ajustarse cada peso y sesgo en la capa de salida para reducir la pérdida.

Para continuar con la retropropagación, se calcula la derivada de la pérdida respecto a las activaciones de la capa anterior como:

da^{n-1} = (W^n)^T \cdot dz^n

Esta expresión permite que la señal de error se propague hacia atrás a través de la red, posibilitando el ajuste de las capas anteriores durante el entrenamiento.

Propagación de Gradientes a las Capas Ocultas

Para cada capa oculta $l$ el procedimiento es el mismo. Dado $da^l$ :

Calcular la derivada de la pérdida respecto a las preactivaciones;
Calcular los gradientes para los pesos y los sesgos;
Calcular $da^{l-1}$ para propagar la derivada hacia atrás.

\begin{aligned} dz^l &= da^l \odot f'^l(z^l)\\ dW^l &= dz^l \cdot (a^{l-1})^T\\ db^l &= dz^l\\ da^{l-1} &= (W^l)^T \cdot dz^l \end{aligned}

Este proceso se repite para cada capa anterior, paso a paso, hasta que se alcanza la capa de entrada.

Actualización de pesos y sesgos

Después de calcular los gradientes para todas las capas, los pesos y sesgos se actualizan utilizando el algoritmo de descenso de gradiente:

\begin{aligned} W^l &= W^l - \alpha \cdot dW^l,\\ b^l &= b^l - \alpha \cdot db^l. \end{aligned}

Aquí, $\alpha$ representa la tasa de aprendizaje, que controla cuánto se ajustan los parámetros durante cada paso de entrenamiento.

Aquí, $\alpha$ es la tasa de aprendizaje, un hiperparámetro que determina el tamaño del ajuste aplicado a los pesos y sesgos durante cada paso de actualización.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 7