Las estimaciones MLE de los pesos de redes neuronales artificiales (ANN) ciertamente son posibles ; de hecho, es completamente típico. Para problemas de clasificación, una función objetivo estándar es la entropía cruzada, que es lo mismo que la probabilidad logarítmica negativa de un modelo binomial. Para los problemas de regresión, se utiliza el error cuadrado residual, que es paralelo a la regresión MLE de OLS.
Pero hay algunos problemas al suponer que las buenas propiedades de los MLE derivados de las estadísticas clásicas también son válidas para los MLE de las redes neuronales.
Hay un problema general con la estimación de ANN: hay muchas soluciones simétricas incluso para ANN de capa única. Invertir los signos de los pesos para la capa oculta y revertir los signos de los parámetros de activación de la capa oculta tienen la misma probabilidad. Además, puede permutar cualquiera de los nodos ocultos y estas permutaciones también tienen la misma probabilidad. Esto es consecuente en la medida en que debe reconocer que está renunciando a la identificabilidad. Sin embargo, si la identificación no es importante, entonces simplemente puede aceptar que estas soluciones alternativas son solo reflexiones y / o permutaciones entre sí.
Esto contrasta con los usos clásicos de MLE en estadística, como una regresión de OLS: el problema de OLS es convexo y estrictamente convexo cuando la matriz de diseño es de rango completo. La convexidad fuerte implica que hay un minimizador único y único.
Los ANN tenderán a sobreajustar los datos cuando se use una solución sin restricciones. Los pesos tenderán a alejarse del origen hacia valores inverosímilmente grandes que no se generalizan bien o predicen nuevos datos con mucha precisión. La imposición de pérdida de peso u otros métodos de regularización tiene el efecto de reducir las estimaciones de peso hacia cero. Esto no necesariamente resuelve el problema de indeterminación de (1), pero puede mejorar la generalización de la red.
La función de pérdida no es convexa y la optimización puede encontrar soluciones óptimas localmente que no son globalmente óptimas. O tal vez estas soluciones son puntos de silla, donde algunos métodos de optimización se estancan. Los resultados en este documento encuentran que los métodos de estimación modernos evitan este problema.
L1L2