¿Qué es exactamente un bloque de aprendizaje residual en el contexto de las redes residuales profundas en el aprendizaje profundo?

Estaba leyendo el artículo Aprendizaje residual profundo para el reconocimiento de imágenes y tuve dificultades para comprender con 100% de certeza lo que implica un bloqueo residual computacionalmente. Leyendo su periódico tienen la figura 2:

que ilustra lo que se supone que es un Bloque residual. ¿El cálculo de un bloque residual es simplemente el mismo que:

y = σ (W_{2} σ (W_{1} x + b_{1}) + b_{2} + x)

$\mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} )$

¿O es otra cosa?

En otras palabras, tal vez tratar de hacer coincidir la notación del artículo es:

F (x) + x = [W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x

$\mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x}$

¿es eso cierto?

Observe que después de la suma del círculo, la palabra ReLU aparece en el papel, por lo que la salida de un Bloque residual (que denoté con ) debería ser: $\mathbf{y}$

σ (F (x) + x) = σ ([W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x)

$\sigma( \mathcal F(x) + x ) = \sigma( \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} )$

con una no linealidad adicional ReLU . $\sigma$

— Charlie Parker
fuente

is x is positive relu (x) = x

— Ray Tayek

Sí, eso es cierto, puede echar un vistazo a su modelo de café para ver cómo se implementa.

— dontloo
fuente