¿Se puede aplicar el descenso de gradiente a funciones no convexas?


18

Estoy aprendiendo sobre la optimización y tengo problemas para comprender la diferencia entre la optimización convexa y no convexa. Según tengo entendido, una función convexa es aquella en la que "el segmento de línea entre dos puntos cualquiera en el gráfico de la función se encuentra arriba o en el gráfico". En este caso, se podría usar un algoritmo de descenso de gradiente, porque hay un mínimo único y los gradientes siempre lo llevarán a ese mínimo.

Sin embargo, ¿qué pasa con la función en esta figura?

ingrese la descripción de la imagen aquí

Aquí, el segmento de línea azul se cruza debajo de la función roja. Sin embargo, la función todavía tiene un mínimo único, por lo que el descenso de gradiente aún lo llevaría a este mínimo.

Entonces mis preguntas son:

1) ¿La función en esta figura es convexa o no convexa?

2) Si no es convexo, ¿se pueden seguir aplicando métodos convexos de optimización (descenso de gradiente)?

Respuestas:


21

La función que ha graficado no es convexa. Sin embargo, es cuasiconvexo .

X1,X2,...F(X1)>F(X2)>...

El descenso de gradiente eventualmente convergerá a un punto estacionario de la función, independientemente de la convexidad. Si la función es convexa, será un mínimo global, pero si no, podría ser un mínimo local o incluso un punto de silla de montar.

F(X)=X3


5

Pablo ya mencionó un punto importante:

  • Si f es convexo, no hay puntos de silla de montar y todos los mínimos locales también son globales. Por lo tanto, GD (con un tamaño de paso adecuado) está garantizado para encontrar un minimizador global.

Lo que dificulta la optimización no convexa es la presencia de puntos de silla de montar y mínimos locales, donde el gradiente es (0, ..., 0) y que tienen un valor objetivo arbitrariamente malo.

Encontrar el minmizer global en un entorno de este tipo generalmente es NP-hard y, en cambio, uno se conforma con el objetivo de encontrar un minimizer local.

Sin embargo, tenga en cuenta que:

  • La probabilidad de que GD se quede atascado en una silla de montar es en realidad 0 ( ver aquí ).
  • Sin embargo, la presencia de puntos de silla de montar podría ralentizar gravemente el avance de los GD porque las direcciones de baja curvatura se explotan demasiado lentamente ( ver aquí )

Dependiendo de la dimensionalidad de su problema, podría ser aconsejable optar por una rutina de optimización de segundo orden.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.