Tengo curiosidad acerca de cómo los gradientes se propagan hacia atrás a través de una red neuronal utilizando módulos ResNet / conexiones de omisión. He visto un par de preguntas sobre ResNet (por ejemplo, red neuronal con conexiones de capa de salto ), pero esta pregunta específicamente sobre la propagación hacia atrás de gradientes durante el entrenamiento.
La arquitectura básica está aquí:
Leí este documento, Estudio de redes residuales para el reconocimiento de imágenes , y en la Sección 2 hablan sobre cómo uno de los objetivos de ResNet es permitir una ruta más corta / más clara para que el gradiente se propague hacia atrás a la capa base.
¿Alguien puede explicar cómo fluye el gradiente a través de este tipo de red? No entiendo cómo la operación de adición, y la falta de una capa parametrizada después de la adición, permite una mejor propagación del gradiente. ¿Tiene algo que ver con cómo el gradiente no cambia cuando fluye a través de un operador de suma y de alguna manera se redistribuye sin multiplicación?
Además, puedo entender cómo se alivia el problema del gradiente de fuga si el gradiente no necesita fluir a través de las capas de peso, pero si no hay flujo de gradiente a través de los pesos, ¿cómo se actualizan después del paso hacia atrás?
the gradient doesn't need to flow through the weight layers
, ¿podrías explicar eso?