¿Las redes residuales están relacionadas con el aumento de gradiente?

11

Recientemente, vimos la aparición de la Red Neural Residual, en la que cada capa consta de un módulo computacional y una conexión de acceso directo que preserva la entrada a la capa, como la salida de la capa i-ésima muestra: La red permite extraer características residuales y permite una profundidad más profunda mientras es más robusto al problema de gradiente que desaparece, logrando un rendimiento de vanguardia. $c_i$

y_{i + 1} = c_{i} + y_{i}

$y_{i+1} = c_i + y_i$

Habiendo profundizado en el aumento de gradiente , una técnica de ensamblaje muy poderosa en el mundo del aprendizaje automático, que también parece realizar una forma de optimización de gradiente en el residuo de la pérdida, es difícil no ver alguna forma de similitud.

Sé que son similares pero no iguales : una diferencia importante que noté es que el aumento de gradiente realiza la optimización en el término aditivo, mientras que la red residual optimiza toda la red.

No vi que He et al notaran esto como parte de su motivación en su artículo original . Entonces, me preguntaba cuáles son sus ideas sobre este tema y le pido que comparta los recursos interesantes que tiene.

Gracias.

— rhadar
fuente

7

Potencialmente, un artículo más nuevo que intenta abordar más de él por parte del equipo de Langford y Shapire: Aprendizaje de bloques Deep ResNet secuencialmente usando Boosting Theory

Las partes de interés son (Ver sección 3):

$\sum_{t=0}^T f_t(g_t(x))$ $\mathbf{w}_t$
$o_{t} (x) := w_{t}^{T} g_{t} (x) \in R$ $o_t(x) := \mathbf{w}_t^T g_t(x) \in \mathbb{R}$

...

$o_t(x) = \sum_{{t'} = 0}^{t-1} \mathbf{w}_t^T f_{t'}(g_{t'}(x))$

$h_t(x)$

Agregando un poco más de detalle a esta respuesta, todos los algoritmos de refuerzo se pueden escribir en alguna forma de [1] (p 5, 180, 185 ...):

F_{T} (x) := \sum_{t = 0}^{T} α_{t} h_{t} (x)

$F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

$h_t$ $t^{th}$ $\alpha_t$ $\alpha_t$ $h_t$

$h_t$ $\epsilon_t$ $\alpha_t = \frac{1}{2} \log \frac{1- \epsilon_t}{\epsilon_t}$

$h_t$ $\nabla\mathcal{L}(F_{t-1}(x)) \cdot h_t$ $\alpha_t > 0$

$T$ $F(x)$

F (x) \propto \sum_{t = 0}^{T} h_{t} (x)

$F(x) \propto \sum_{t=0}^T h_t(x)$

$F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

[1] Robert E. Schapire y Yoav Freund. 2012. Impulso: fundamentos y algoritmos. La prensa del MIT. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford, Robert Schapire: Aprendiendo bloques Deep ResNet secuencialmente usando Boosting Theory, ICML 2018

— capítulos
fuente

4

Respondiendo a mi propia pregunta: he encontrado un artículo notable que investiga y prueba que las Redes Residuales Profundas son de hecho un conjunto de redes superficiales.

OTRA EDICIÓN, después de comprender este tema, abito más: miro Resnets como una forma de aprender 'Feature Boosting'. La conexión residual realiza un refuerzo, pero no en el objetivo, sino en las características de salida de la siguiente capa. Entonces, de hecho, están conectados, pero no es un aumento de gradiente clásico, sino de hecho, 'Aumento de la función de degradado'.

— rhadar
fuente