¿Cómo calculo el término delta de una capa convolucional, dados los términos delta y los pesos de la capa convolucional anterior?

Estoy tratando de entrenar una red neuronal artificial con dos capas convolucionales (c1, c2) y dos capas ocultas (c1, c2). Estoy usando el enfoque estándar de retropropagación. En el paso hacia atrás calculo el término de error de una capa (delta) en función del error de la capa anterior, los pesos de la capa anterior y el gradiente de la activación con respecto a la función de activación de la capa actual. Más específicamente, el delta de la capa l se ve así:

delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l)

Puedo calcular el gradiente de c2, que se conecta en una capa regular. Simplemente multiplico los pesos de h1 con su delta. Luego vuelvo a dar forma a esa matriz en la forma de la salida de c2, la multiplico con el gradiente de la función de activación y listo.

Ahora tengo el término delta de c2, que es una matriz de tamaño 4D (featureMapSize, featureMapSize, filterNum, patternNum). Además, tengo los pesos de c2, que son una matriz de tamaño 3D (filterSize, filterSize, filterNum).

Con estos dos términos y el gradiente de la activación de c1 quiero calcular el delta de c1.

Larga historia corta:

Dado el término delta de una capa convolucional previa y los pesos de esa capa, ¿cómo calculo el término delta de una capa convolucional?

— cdwoelk
fuente

Primero obtengo el error para una capa convolucional a continuación para simplificar una matriz (entrada) unidimensional que se puede transferir fácilmente a una multidimensional y luego:

Suponemos aquí que el de longitud son las entradas de la conv-ésimo. capa, es el tamaño del núcleo de los pesos denota cada peso por y la salida es . Por lo tanto, podemos escribir (tenga en cuenta la suma de cero): donde $y^{l-1}$ $N$ $l-1$ $m$ $w$ $w_i$ $x^l$

x_{i}^{l} = \sum_{a = 0}^{m - 1} w_{a} y_{a + i}^{l - 1}

$x_i^l = \sum\limits_{a=0}^{m-1} w_a y_{a+i}^{l-1}$

la función de activación (por ejemplo sigmoidal). Con esto a mano, ahora podemos considerar alguna función de error

y la función de error en la capa convolucional (la de su capa anterior) dada por

. Ahora queremos averiguar la dependencia del error en uno de los pesos en las capas anteriores:

y_{i}^{l} = f (x_{i}^{l})

$y_i^l = f(x_i^l)$

f

$f$

E

$E$

\partial E / \partial y_{i}^{l}

$\partial E / \partial y_i^l$

donde tenemos la suma sobre todas las expresiones en las que seproduce

, que son

. Tenga en cuenta también que sabemos que el último término surge del hecho de que

\frac{\partial E}{\partial w_{a}} = \sum_{a = 0}^{N - m} \frac{\partial E}{\partial x_{i}^{l}} \frac{\partial x_{i}^{l}}{\partial w_{a}} = \sum_{a = 0}^{N - m} \frac{\partial E}{\partial w_{a}} y_{i + a}^{l - 1}

$\begin{equation} \frac{\partial E}{\partial w_a} = \sum\limits_{a=0}^{N-m} \frac{\partial E}{\partial x_i^l} \frac{\partial x_i^l}{\partial w_a} = \sum\limits_{a=0}^{N-m}\frac{\partial E}{\partial w_a} y_{i+a}^{l-1} \end{equation}$

w_{a}

$w_a$

N - m

$N-m$

que puedes ver en la primera ecuación. Para calcular el gradiente necesitamos conocer el primer término, que puede calcularse mediante:

\frac{\partial x_{i}^{l}}{\partial w_{a}} = y_{i + a}^{l - 1}

$\frac{\partial x_i^l}{\partial w_a}= y_{i+a}^{l-1}$

donde nuevamente el primer término es el error en la capa anterior

la función de activación no lineal.

\frac{\partial E}{\partial x_{i}^{l}} = \frac{\partial E}{\partial y_{i}^{l}} \frac{\partial y_{i}^{l}}{\partial x_{i}^{l}} = \frac{\partial E}{\partial y_{i}^{l}} \frac{\partial}{\partial x_{i}^{l}} f (x_{i}^{l})

$\frac{\partial E}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial y_i^l}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial}{\partial x_i^l} f(x_i^{l})$

f

$f$

Teniendo todas las entidades necesarias, ahora podemos calcular el error y propagarlo de manera eficiente a la capa preciosa:

δ_{a}^{l - 1} = \frac{\partial E}{\partial y_{i}^{l - 1}} = \sum_{a = 0}^{m - 1} \frac{\partial E}{\partial x_{i - a}^{l}} \frac{\partial x_{i - a}^{l}}{\partial y_{i}^{l - 1}} = \sum_{a = 0}^{m - 1} \frac{\partial E}{\partial x_{i - a}^{l}} w_{a}^{f l i p p e d}

$\delta^{l-1}_a = \frac{\partial E}{\partial y_i^{l-1} } = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x_{i-a}^l} \frac{\partial x_{i-a}^l}{\partial y_i^{l-1}} = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x^l_{i-a}} w_a^{flipped}$

x_{i}^{l}

$x_i^l$

y_{i}^{l - 1}

$y_i^{l-1}$

f l i p p e d

$flipped$

T

$T$

Por lo tanto, puede calcular el error en la siguiente capa por (ahora en notación vectorial):

δ^{l} = (w^{l})^{T} δ^{l + 1} f^{'} (x^{l})

$\delta^{l} = (w^{l})^{T} \delta^{l+1} f'(x^{l})$

δ^{l} = u p s a m p l e ((w^{l})^{T} δ^{l + 1}) f^{'} (x^{l})

$\delta^{l} = upsample((w^{l})^{T} \delta^{l+1}) f'(x^{l})$

u p s a m p l e

$upsample$

¡Por favor siéntase libre de agregarme o corregirme!

Para referencias ver:

http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/

y para una implementación de C ++ (sin necesidad de instalar): https://github.com/nyanp/tiny-cnn#supported-networks

— LeoW.
fuente