Tengo la siguiente CNN:

Comienzo con una imagen de entrada de tamaño 5x5
Luego aplico convolución usando kernel 2x2 y stride = 1, que produce un mapa de características de tamaño 4x4.
Luego aplico 2x2 max-pooling con stride = 2, que reduce el mapa de características al tamaño 2x2.
Luego aplico logístico sigmoide.
Luego una capa completamente conectada con 2 neuronas.
Y una capa de salida.

En aras de la simplicidad, supongamos que ya completé el pase directo y calculé δH1 = 0.25 y δH2 = -0.15

Entonces, después del paso hacia adelante completo y el paso hacia atrás parcialmente completado, mi red se ve así:

Luego calculo deltas para la capa no lineal (sigmoide logístico):

\begin{aligned} δ_{11} = (0.25 * 0.61 + - 0.15 * 0.02) * 0.58 * (1 - 0.58) = 0.0364182 \\ δ_{12} = (0.25 * 0.82 + - 0.15 * - 0.50) * 0.57 * (1 - 0.57) = 0.068628 \\ δ_{21} = (0.25 * 0.96 + - 0.15 * 0.23) * 0.65 * (1 - 0.65) = 0.04675125 \\ δ_{22} = (0.25 * - 1.00 + - 0.15 * 0.17) * 0.55 * (1 - 0.55) = - 0.06818625 \end{aligned}

$\begin{align} &\delta_{11}=(0.25 * 0.61 + -0.15 * 0.02) * 0.58 * (1 - 0.58) = 0.0364182\\ &\delta_{12}=(0.25 * 0.82 + -0.15 * -0.50) * 0.57 * (1 - 0.57) = 0.068628\\ &\delta_{21}=(0.25 * 0.96 + -0.15 * 0.23) * 0.65 * (1 - 0.65) = 0.04675125\\ &\delta_{22}=(0.25 * -1.00 + -0.15 * 0.17) * 0.55 * (1 - 0.55) = -0.06818625\\ \end{align}$

Luego, propago deltas a la capa 4x4 y establezco todos los valores que se filtraron mediante la agrupación máxima a 0 y el mapa de degradado se ve así:

¿Cómo actualizo los pesos del kernel desde allí? Y si mi red tenía otra capa convolucional antes de 5x5, ¿qué valores debería usar para actualizar los pesos del kernel? Y en general, ¿es correcto mi cálculo?

— koryakinp
fuente

Por favor aclara lo que te confunde. Ya sabes cómo hacer la derivada del máximo (todo es cero excepto donde el valor es máximo). Entonces, olvidemos la agrupación máxima. ¿Es tu problema en la convolución? Cada parche de convolución tendrá sus propios derivados, es un proceso computacional lento.

— Ricardo Cruz

La mejor fuente es el libro de aprendizaje profundo , ciertamente no es una lectura fácil :). La primera circunvolución es lo mismo que dividir la imagen en parches y luego aplicar una red neuronal normal, donde cada píxel se conecta a la cantidad de "filtros" que tiene usando un peso.

— Ricardo Cruz

¿Es su pregunta en esencia cómo se ajustan los pesos del kernel mediante el uso de la retropropagación?

— JahKnows

@JahKnows ... y cómo se calculan los gradientes para la capa convolucional, dado el ejemplo en cuestión.

— koryakinp

¿Hay una función de activación asociada con sus capas convolucionales?

— JahKnows

Una convolución emplea un principio de distribución de peso que complicará las matemáticas de manera significativa, pero tratemos de superar las malezas. Estoy sacando la mayor parte de mi explicación de esta fuente .

Pase adelantado

Como observó, el paso hacia adelante de la capa convolucional se puede expresar como

$x_{i, j}^l = \sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l$

$k_1$ $k_2$ $k_1=k_2=2$ $x_{0,0} = 0.25$ $m$ $n$

Propagación hacia atrás

Suponiendo que está utilizando el error cuadrático medio (MSE) definido como

$E = \frac{1}{2}\sum_p (t_p - y_p)^2$

queremos determinar

$\frac{\partial E}{\partial w^l_{m', n'}}$ $m'$ $n'$ $w^1_{0,0} = -0.13$ $H$ $K$

$(H-k_1+1)$ $(W-k_2+1)$

$4$ $4$ $w^1_{0,0} = -0.13$ $x^1_{0,0} = 0.25$

$\frac{\partial E}{\partial w^l_{m', n'}} = \sum_{i=0}^{H-k_1} \sum_{j=0}^{W-k_2} \frac{\partial E}{\partial x^l_{i, j}} \frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}}$

Esto itera en todo el espacio de salida, determina el error que la salida está contribuyendo y luego determina el factor de contribución del peso del núcleo con respecto a esa salida.

Llamemos a la contribución al error desde el delta del espacio de salida para simplificar y realizar un seguimiento del error propagado hacia atrás,

$\frac{\partial E}{\partial x^l_{i, j}} = \delta^l_{i,j}$

El aporte de los pesos

La convolución se define como

$x_{i, j}^l = \sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l$

así,

$\frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}} = \frac{\partial}{\partial w^l_{m', n'}} (\sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l)$

$m=m'$ $n=n'$

$\frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}} = o^{l-1}_{i+m', j+n'}$

Luego de vuelta en nuestro término de error

$\frac{\partial E}{\partial w^l_{m', n'}} = \sum_{i=0}^{H-k_1} \sum_{j=0}^{W-k_2} \delta_{i,j}^l o^{l-1}_{i+m', j+n'}$

Descenso de gradiente estocástico

$w^{(t+1)} = w^{(t)} - \eta \frac{\partial E}{\partial w^l_{m', n'}}$

Vamos a calcular algunos de ellos.

import numpy as np
from scipy import signal
o = np.array([(0.51, 0.9, 0.88, 0.84, 0.05), 
              (0.4, 0.62, 0.22, 0.59, 0.1), 
              (0.11, 0.2, 0.74, 0.33, 0.14), 
              (0.47, 0.01, 0.85, 0.7, 0.09),
              (0.76, 0.19, 0.72, 0.17, 0.57)])
d = np.array([(0, 0, 0.0686, 0), 
              (0, 0.0364, 0, 0), 
              (0, 0.0467, 0, 0), 
              (0, 0, 0, -0.0681)])

gradient = signal.convolve2d(np.rot90(np.rot90(d)), o, 'valid')

matriz ([[0.044606, 0.094061], [0.011262, 0.068288]])

$\frac{\partial E}{\partial w}$

Avíseme si hay errores en la derivación.

Actualización: código corregido

— JahKnows
fuente

\frac{\partial E}{\partial w_{m^{'}, n^{'}}^{l}}

$\frac{\partial E}{\partial w^l_{m', n'}}$

gradient = signal.convolve2d(np.rot90(np.rot90(d)), o, 'valid')

— Sun Bee

Me gustaría sugerir revisar esta respuesta. En particular, el código provisto en Python podría ser verificado

— Duloren

propagación hacia atrás en CNN

Pase adelantado

Propagación hacia atrás

El aporte de los pesos

Descenso de gradiente estocástico