Recientemente, vimos la aparición de la Red Neural Residual, en la que cada capa consta de un módulo computacional y una conexión de acceso directo que preserva la entrada a la capa, como la salida de la capa i-ésima muestra: y i + 1 = c i + y i La red permite extraer características residuales y permite una profundidad más profunda mientras es más robusto al problema de gradiente que desaparece, logrando un rendimiento de vanguardia.
Habiendo profundizado en el aumento de gradiente , una técnica de ensamblaje muy poderosa en el mundo del aprendizaje automático, que también parece realizar una forma de optimización de gradiente en el residuo de la pérdida, es difícil no ver alguna forma de similitud.
Sé que son similares pero no iguales : una diferencia importante que noté es que el aumento de gradiente realiza la optimización en el término aditivo, mientras que la red residual optimiza toda la red.
No vi que He et al notaran esto como parte de su motivación en su artículo original . Entonces, me preguntaba cuáles son sus ideas sobre este tema y le pido que comparta los recursos interesantes que tiene.
Gracias.