No creo que haya una respuesta definitiva a sus preguntas. Pero creo que la sabiduría convencional es la siguiente:
Básicamente, a medida que crece el espacio de hipótesis de un algoritmo de aprendizaje, el algoritmo puede aprender estructuras cada vez más ricas. Pero al mismo tiempo, el algoritmo se vuelve más propenso al sobreajuste y es probable que aumente su error de generalización.
Por lo tanto, en última instancia, para cualquier conjunto de datos dado, es recomendable trabajar con el modelo mínimo que tenga la capacidad suficiente para aprender la estructura real de los datos. Pero este es un consejo muy sencillo, ya que generalmente se desconoce la "estructura real de los datos" y, a menudo, incluso las capacidades de los modelos candidatos solo se entienden vagamente.
Cuando se trata de redes neuronales, el tamaño del espacio de hipótesis está controlado por el número de parámetros. Y parece que para un número fijo de parámetros (o un orden de magnitud fijo), profundizar permite que los modelos capturen estructuras más ricas (por ejemplo, este documento ).
Esto puede explicar parcialmente el éxito de los modelos más profundos con menos parámetros: VGGNet (desde 2014) tiene 16 capas con ~ 140M parámetros, mientras que ResNet (desde 2015) lo supera con 152 capas pero solo ~ 2M parámetros
(como un lado, los modelos más pequeños pueden ser computacionalmente más fáciles de entrenar, pero no creo que sea un factor importante en sí mismo, ya que la profundidad realmente complica el entrenamiento)
Tenga en cuenta que esta tendencia (más profundidad, menos parámetros) está principalmente presente en tareas relacionadas con la visión y redes convolucionales, y esto requiere una explicación específica del dominio. Así que aquí hay otra perspectiva:
Cada "neurona" en una capa convolucional tiene un "campo receptivo", que es el tamaño y la forma de las entradas que afectan a cada salida. Intuitivamente, cada núcleo captura algún tipo de relación entre las entradas cercanas. Y los núcleos pequeños (que son comunes y preferibles) tienen un pequeño campo receptivo, por lo que solo pueden proporcionar información sobre las relaciones locales.
Pero a medida que profundiza, el campo receptivo de cada neurona con respecto a una capa anterior se hace más grande. Por lo tanto, las capas profundas pueden proporcionar características con significado semántico global y detalles abstractos (relaciones de relaciones ... de relaciones de objetos), a la vez que usan solo núcleos pequeños (que regularizan las relaciones que aprende la red y la ayudan a converger y generalizar).
Por lo tanto, la utilidad de las redes convolucionales profundas en la visión por computadora puede explicarse parcialmente por la estructura espacial de imágenes y videos. Es posible que el tiempo diga que para diferentes tipos de problemas, o para arquitecturas no convolucionales, la profundidad en realidad no funciona bien.