¿Podemos usar MLE para estimar los pesos de la red neuronal?

23

Recién comencé a estudiar sobre estadísticas y modelos. Actualmente, entiendo que usamos MLE para estimar los mejores parámetros para un modelo. Sin embargo, cuando trato de entender cómo funcionan las redes neuronales, parece que comúnmente usan otro enfoque para estimar los parámetros. ¿Por qué no usamos MLE o es posible usar MLE?

maximum-likelihood neural-networks

— colina
fuente

16

Las estimaciones MLE de los pesos de redes neuronales artificiales (ANN) ciertamente son posibles ; de hecho, es completamente típico. Para problemas de clasificación, una función objetivo estándar es la entropía cruzada, que es lo mismo que la probabilidad logarítmica negativa de un modelo binomial. Para los problemas de regresión, se utiliza el error cuadrado residual, que es paralelo a la regresión MLE de OLS.

Pero hay algunos problemas al suponer que las buenas propiedades de los MLE derivados de las estadísticas clásicas también son válidas para los MLE de las redes neuronales.

Hay un problema general con la estimación de ANN: hay muchas soluciones simétricas incluso para ANN de capa única. Invertir los signos de los pesos para la capa oculta y revertir los signos de los parámetros de activación de la capa oculta tienen la misma probabilidad. Además, puede permutar cualquiera de los nodos ocultos y estas permutaciones también tienen la misma probabilidad. Esto es consecuente en la medida en que debe reconocer que está renunciando a la identificabilidad. Sin embargo, si la identificación no es importante, entonces simplemente puede aceptar que estas soluciones alternativas son solo reflexiones y / o permutaciones entre sí.

Esto contrasta con los usos clásicos de MLE en estadística, como una regresión de OLS: el problema de OLS es convexo y estrictamente convexo cuando la matriz de diseño es de rango completo. La convexidad fuerte implica que hay un minimizador único y único.
Los ANN tenderán a sobreajustar los datos cuando se use una solución sin restricciones. Los pesos tenderán a alejarse del origen hacia valores inverosímilmente grandes que no se generalizan bien o predicen nuevos datos con mucha precisión. La imposición de pérdida de peso u otros métodos de regularización tiene el efecto de reducir las estimaciones de peso hacia cero. Esto no necesariamente resuelve el problema de indeterminación de (1), pero puede mejorar la generalización de la red.
La función de pérdida no es convexa y la optimización puede encontrar soluciones óptimas localmente que no son globalmente óptimas. O tal vez estas soluciones son puntos de silla, donde algunos métodos de optimización se estancan. Los resultados en este documento encuentran que los métodos de estimación modernos evitan este problema.
$L^1$ $L^2$

— Sycorax dice reinstalar a Mónica
fuente

2

Ruego diferir con lo que dices. Los diferentes mínimos locales que surgen de las simetrías son todos de la misma calidad, por lo que no tiene que preocuparse por eso en absoluto. Lo que probablemente quiera decir es que los ANN no tienen funciones de pérdida convexa, lo que hace que la optimización sea más complicada y no garantiza encontrar un óptimo global. Sin embargo, recientemente ha habido bastante evidencia de que los ANN en realidad no tienen tantos problemas de mínimos locales, sino más bien problemas de puntos de silla de montar. Ver, por ejemplo, arxiv.org/abs/1412.6544 .

— bayerj

11

En problemas de clasificación, maximizar la probabilidad es la forma más común de entrenar una red neuronal (modelos supervisados y no supervisados).

En la práctica, generalmente minimizamos la probabilidad logarítmica negativa (MLE equivalente). La única restricción para usar la probabilidad de registro negativa es tener una capa de salida que se pueda interpretar como una distribución de probabilidad. Una capa de salida softmax se usa comúnmente para hacerlo. Tenga en cuenta que en la comunidad de redes neuronales, la probabilidad logarítmica negativa a veces se denomina entropía cruzada. Por supuesto, se pueden agregar términos de regularización (y a veces se pueden interpretar como distribuciones anteriores sobre los parámetros, en ese caso estamos buscando el máximo a posteriori ( MAP )).

— AdeB
fuente