Hay dos lagunas principales en nuestra comprensión de las redes neuronales: dureza de optimización y rendimiento de generalización.
Entrenar una red neuronal requiere resolver un problema de optimización altamente no convexo en grandes dimensiones. Los algoritmos de entrenamiento actuales se basan en el descenso de gradiente, lo que solo garantiza la convergencia a un punto crítico (mínimo local o silla de montar). De hecho, Anandkumar & Ge 2016 demostró recientemente que encontrar incluso un mínimo local es NP-duro, lo que significa que (suponiendo que P! = NP) existan puntos "malos", difíciles de escapar, en la superficie de error.
Sin embargo, estos algoritmos de entrenamiento son empíricamente efectivos para muchos problemas prácticos, y no sabemos por qué.
Ha habido trabajos teóricos como Choromanska et al. 2016 y Kawaguchi 2016que prueban que, bajo ciertos supuestos, los mínimos locales son esencialmente tan buenos como los mínimos globales, pero los supuestos que hacen son algo poco realistas y no abordan el problema de los puntos débiles.
La otra brecha principal en nuestra comprensión es el rendimiento de generalización: ¿qué tan bien se desempeña el modelo en ejemplos novedosos no vistos durante el entrenamiento? Es fácil demostrar que en el límite de un número infinito de ejemplos de entrenamiento (muestreados en una distribución estacionaria), el error de entrenamiento converge con el error esperado en ejemplos nuevos (siempre que pueda entrenar al óptimo global), pero dado que no tenemos infinitos ejemplos de entrenamiento, estamos interesados en cuántos ejemplos son necesarios para lograr una diferencia dada entre el entrenamiento y el error de generalización. La teoría del aprendizaje estadístico estudia estos límites de generalización.
Empíricamente, entrenar una gran red neuronal moderna requiere una gran cantidad de ejemplos de entrenamiento (Big Data, si te gustan las palabras de moda), pero no es tan grande como para ser prácticamente inviable. Pero si aplica los límites más conocidos de la teoría del aprendizaje estadístico (por ejemplo, Gao y Zhou 2014 ), generalmente obtiene estos números incalculables. Por lo tanto, estos límites están muy lejos de ser apretados, al menos para problemas prácticos.
Una de las razones podría ser que estos límites tienden a asumir muy poco acerca de la distribución de generación de datos, por lo tanto, reflejan el peor desempeño en entornos adversos, mientras que los entornos "naturales" tienden a ser más "aprendebles".
Es posible escribir límites de generalización dependientes de la distribución, pero no sabemos cómo caracterizar formalmente una distribución en entornos "naturales". Enfoques como la teoría de la información algorítmica siguen siendo insatisfactorios.
Por lo tanto, todavía no sabemos por qué las redes neuronales se pueden entrenar sin sobreajustar.
Además, debe tenerse en cuenta que estos dos problemas principales parecen estar relacionados de una manera aún poco conocida: los límites de generalización de la teoría del aprendizaje estadístico suponen que el modelo está entrenado para el óptimo global en el conjunto de entrenamiento, pero en un entorno práctico nunca entrenaría una red neuronal hasta la convergencia, incluso a un punto de silla de montar, ya que hacerlo normalmente causaría un sobreajuste. En cambio, deja de entrenar cuando el error en un conjunto de validación extendido (que es un proxy para el error de generalización) deja de mejorar. Esto se conoce como "parada temprana".
Entonces, en cierto sentido, toda esta investigación teórica sobre limitar el error de generalización del óptimo global puede ser bastante irrelevante: no solo no podemos encontrarlo de manera eficiente, sino que incluso si pudiéramos, no quisiéramos, ya que funcionaría peor en nuevos ejemplos que muchas soluciones "subóptimas".
Puede darse el caso de que la dureza de la optimización no sea un defecto de la red neuronal, por el contrario, tal vez las redes neuronales puedan funcionar en absoluto precisamente porque son difíciles de optimizar.
Todas estas observaciones son empíricas y no existe una buena teoría que las explique. Tampoco existe una teoría que explique cómo establecer los hiperparámetros de las redes neuronales (ancho y profundidad de capa oculta, tasas de aprendizaje, detalles arquitectónicos, etc.). Los practicantes utilizan su intuición perfeccionada por la experiencia y muchos ensayos y errores para obtener valores efectivos, mientras que una teoría podría permitirnos diseñar redes neuronales de una manera más sistemática.