En esta respuesta exploraré dos documentos interesantes y relevantes que se mencionaron en los comentarios. Antes de hacerlo, intentaré formalizar el problema y arrojar algo de luz sobre algunos de los supuestos y definiciones. Comienzo con un artículo de 2016 de Lee et al.
Buscamos minimizar una función no convexa que está limitada a continuación. Requerimos que sea dos veces diferenciable. Utilizamos un algoritmo de descenso de gradiente de la forma:f:Rd→R
xxt+1=xxt−α∇f(xxt) .
Además, tenemos el siguiente requisito:
∥∇f(xx1)−∇f(xx2)∥≤ℓ∥xx1−xx2∥,for all xx1,xx2 .
Es decir, requerimos que nuestra función sea -Lipschitz en su primera derivada. En inglés, esto se traduce en la idea de que nuestro gradiente no puede cambiar demasiado rápido en ninguna parte del dominio. Esta suposición asegura que podemos elegir un tamaño de paso tal que nunca terminemos con pasos que divergen.ℓ
Recuerde que un punto se dice que es una silla estricta si y y . Si todos los valores propios del Hessian tienen el mismo signo, entonces el punto es un mínimo (si son positivos) o un máximo (si son negativos). Si hay 0 valores propios, entonces se dice que es degenerado, y no es una silla de montar estricta.xx∇f(xx)=0λmin(∇2f(xx))<0λmax(∇2f(xx))>0
El documento muestra que con los supuestos anteriores, junto con el supuesto de que todos los puntos de silla de la función son de silla de montar estricta, se garantiza que el descenso del gradiente converja al mínimo.
La prueba es bastante técnica, pero la intuición es esta: defina un conjunto , donde es un punto de silla de montar. No me gusta esta notación en absoluto. A lo que intentan llegar es a que es el conjunto de valores iniciales para los cuales el mapa de gradiente envía a . Dicho más claramente, es el conjunto de inicializaciones aleatorias que finalmente convergerán en una silla de montar.Ws(xxs)={xx:limkgk(xx)=xxs}xxsWg:Rd→Rdxxkxxs
Su argumento se basa en el teorema del múltiple estable. Con los supuestos anteriores y un montón de matemáticas esotéricas, concluyen que el conjunto debe ser cero, es decir, hay cero probabilidad de inicialización aleatoria en un punto que convergerá en un punto de silla de montar. Como sabemos que el descenso de gradiente en funciones del tipo descrito en los supuestos con tamaños de paso adecuadamente pequeños finalmente alcanzará un punto crítico, y ahora sabemos (casi seguramente) que nunca aterrizará en una silla de montar, sabemos que converge a Un minimizador.Ws
El segundo artículo más reciente de Reddi et al. Discutiré con menos detalle. Hay varias diferencias Primero, ya no están trabajando en un marco determinista, sino que optan por el marco de aproximación estocástico más relevante en una suma finita (piense en el Descenso de gradiente estocástico). Las principales diferencias son que el tamaño del paso requiere un cuidado adicional, y el gradiente se convierte en una variable aleatoria. Además, relajan la suposición de que todos los sillines son estrictos y buscan un punto estacionario de segundo orden. Es decir, un punto tal que,
∥∇(f)∥≤ϵ,and,λmin(∇2f(xx))≥−ρϵ−−√
Donde es la constante de Lipschitz para el Hessian. (Es decir, además del requisito de que nuestro gradiente no varíe demasiado rápido, ahora tenemos un requisito similar en nuestro Hessian. Esencialmente, los autores están buscando un punto que parezca un mínimo tanto en la primera como en la segunda derivada.rho
El método por el cual logran esto es usar una variante (elija su favorito) de descenso de gradiente estocástico la mayor parte del tiempo. Pero cada vez que encuentran un punto donde , usan un método de segundo orden elegido adecuadamente para escapar de la silla de montar. Muestran que al incorporar esta información de segundo orden según sea necesario, convergerán en un punto estacionario de segundo orden.λmin(∇2f(xx))≤0
Técnicamente, este es un método de gradiente de segundo orden, que puede estar o no bajo el paraguas de algoritmos que le interesan.
Esta es un área de investigación muy activa y he dejado de lado muchas contribuciones importantes (ex Ge et al. ). También soy nuevo en el tema, por lo que esta pregunta me ha brindado la oportunidad de mirar. Estoy feliz de continuar la discusión si hay interés.
*** Elegido adecuadamente significa uno que se muestra que converge a un punto estacionario de segundo orden. Utilizan el método de Newton cúbico regularizado de Nesterov y Polyak.