mínimos locales vs puntos de silla en el aprendizaje profundo

Escuché a Andrew Ng (en un video que desafortunadamente ya no puedo encontrar) hablar sobre cómo la comprensión de los mínimos locales en problemas de aprendizaje profundo ha cambiado en el sentido de que ahora se consideran menos problemáticos porque en espacios de alta dimensión (encontrados en aprendizaje profundo) es más probable que los puntos críticos sean puntos de silla de montar o mesetas en lugar de mínimos locales.

He visto documentos (por ejemplo, este ) que discuten supuestos bajo los cuales "cada mínimo local es un mínimo global". Estos supuestos son bastante técnicos, pero por lo que entiendo, tienden a imponer una estructura en la red neuronal que la hace algo lineal.

¿Es una afirmación válida que, en el aprendizaje profundo (incl. Arquitecturas no lineales), las mesetas son más probables que los mínimos locales? Y si es así, ¿hay una intuición (posiblemente matemática) detrás de esto?

¿Hay algo en particular sobre el aprendizaje profundo y los puntos de silla?

— oW_
fuente

Cuando se trata de la intuición matemática de por qué es más probable un punto de silla de montar que un mínimo local, lo pensaría en términos de las características. Para ser un mínimo local, tiene que ser un mínimo local en todas las direcciones. Por el contrario, para un punto de silla de montar, solo 1 dirección debe ser diferente a las demás. Es mucho más probable que 1 o más tengan un comportamiento diferente que los demás, en comparación con el mismo comportamiento en todas las direcciones.

— Paul

gracias, ahora que lo dices, es algo obvio ... aquí hay una discusión interesante sobre el tema

— oW_

Andrew Ng tiene un video sobre "El problema de los mínimos locales" en la semana 2 de su curso Coursera, "Mejorando las redes neuronales profundas: ajuste, regularización y optimización de hiperparámetros". Quizás es el que estás buscando.

— mjul

echa un vistazo a aquí

— Medios

Respuestas:

Esto simplemente está tratando de transmitir mi intuición, es decir, sin rigor. Lo que pasa con los puntos de silla es que son un tipo óptimo que combina una combinación de mínimos y máximos. Debido a que el número de dimensiones es tan grande con el aprendizaje profundo, la probabilidad de que un óptimo solo consista en una combinación de mínimos es muy baja. Esto significa que 'quedarse atascado' en un mínimo local es raro. A riesgo de simplificar demasiado, es más difícil 'quedar atrapado' en un punto de silla de montar porque puede 'deslizarse hacia abajo una de las dimensiones'. Creo que el video de Andrew Ng al que te refieres proviene del curso Coursera sobre Deep Learning de él.

— usuario41985
fuente

D = [\begin{matrix} d_{1} \\ ⋱ \\ d_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

$d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$ , debido a la alta no linealidad de la matriz de Hesse, por lo que tomaremos las probabilidades de que sean positivas como eventos independientes.

P (d_{1} > 0, \dots, d_{n} > 0) = P (d_{1} > 0) \cdot \dots \cdot P (d_{n} > 0) = \frac{1}{2^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

$10^8$ $1/2^n$ es ridículamente pequeño. Ahora estamos convencidos de que, dado cualquier punto crítico con el que nos encontremos, es muy poco probable que sea un mínimo.

¿Pero qué hay de maxima?

$1/2 ^n$ a ser de un máximo.

P (s a d d l e) = 1 - P (m a x i m u m) - P (m i n i m u m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

$n$

— David Masip
fuente