(Editar notas: reorganicé esto después de enloquecer por completo).
La literatura sobre el descenso coordinado puede ser un poco difícil de localizar. Aquí hay algunas razones para esto.
Muchas de las propiedades conocidas de los métodos de coordenadas se capturan en teoremas generales para métodos de descenso más generales. Dos ejemplos de esto, se dan a continuación, son la rápida convergencia bajo convexidad fuerte (HOLD para cualquier descenso más agudo), y la convergencia general de estos métodos (generalmente atribuida a Zoutendijk).lpag
Nombrar no es estándar. Incluso el término "descenso más pronunciado" no es estándar. Puede tener éxito buscando en Google cualquiera de los términos "descenso cíclico coordinado", "descenso coordinado", "Gauss-Seidel", "Gauss-Southwell". El uso no es consistente.
La variante cíclica rara vez recibe una mención especial. En cambio, generalmente solo se discute la mejor opción de coordenadas. Pero esto casi siempre da la garantía cíclica, aunque con un factor adicional (número de variables): esto se debe a que la mayoría de los análisis de convergencia proceden al limitar la mejora de un solo paso, y puede ignorar las coordenadas adicionales. También parece difícil decir algo general sobre lo que le compra cíclico, por lo que las personas simplemente hacen la mejor coordenada y el factor n generalmente se puede verificar.nortenorte
Tasa bajo convexidad fuerte. El caso más simple es que su función objetivo es fuertemente convexa. Aquí, todas las variantes de descenso de gradiente tienen la tasa . Esto se demuestra en el libro de Boyd y Vandenberghe. La prueba da primero el resultado para el descenso de gradiente, y luego usa la equivalencia norma para dar el resultado para general l p descenso más agudo.O ( ln( 1 / ϵ ) )lpag
Restricciones Sin una fuerte convexidad, debes comenzar a ser un poco cuidadoso. No dijiste nada acerca de las restricciones y, por lo tanto, en general, el infimum puede no ser alcanzable. Diré brevemente sobre el tema de las restricciones que el enfoque estándar (con métodos de descenso) es proyectar en su restricción establecer cada iteración para mantener la viabilidad, o utilizar barreras para implementar las restricciones en su función objetivo. En el caso de la primera, no sé cómo juega con el descenso coordinado; en el caso de este último, funciona bien con descenso coordinado, y estas barreras pueden ser fuertemente convexas.
Más específicamente a los métodos de coordenadas, en lugar de proyectar, muchas personas simplemente hacen que la actualización de coordenadas mantenga la viabilidad: este es exactamente el caso con el algoritmo de Frank-Wolfe y sus variantes (es decir, usarlo para resolver SDP).
También señalaré brevemente que el algoritmo SMO para SVM se puede ver como un método de descenso de coordenadas, donde está actualizando dos variables a la vez y manteniendo una restricción de factibilidad mientras lo hace. La elección de las variables es heurística en este método, por lo que las garantías son realmente solo las garantías cíclicas. No estoy seguro de si esta conexión aparece en la literatura estándar; Aprendí sobre el método SMO de las notas del curso de Andrew Ng, y descubrí que estaban bastante limpias.
norte
O ( ln( 1 / ϵ ) )
Hay algunos resultados más recientes sobre el descenso coordinado, he visto cosas en arXiv. Además, luo & tseng tienen algunos documentos más nuevos. Pero esto es lo principal.
∑metroi = 1sol( ⟨ Unayo, λ ⟩ )sol( ayo)metro1λExp( 1 / ϵ2)O (1 / ϵ)
El problema con las actualizaciones exactas. Además, es muy frecuente que no tenga una actualización de coordenadas únicas de forma cerrada. O la solución exacta puede simplemente no existir. Pero afortunadamente, hay muchos métodos de búsqueda de línea que obtienen básicamente las mismas garantías que una solución exacta. Este material se puede encontrar en textos de programación no lineal estándar, por ejemplo, en los libros Bertsekas o Nocedal & Wright mencionados anteriormente.
Vis a vis su segundo párrafo: cuando estos funcionan bien.
Primero, muchos de los análisis mencionados anteriormente para el gradiente funcionan para el descenso coordinado. Entonces, ¿por qué no usar siempre el descenso coordinado? La respuesta es que para muchos problemas en los que es aplicable el descenso de gradiente, también puede usar los métodos de Newton, para los cuales se puede demostrar una convergencia superior. No sé de una manera de obtener la ventaja de Newton con el descenso coordinado. Además, el alto costo de los métodos de Newton se puede mitigar con las actualizaciones de Quasinewton (ver, por ejemplo, LBFGS).
l0 0kkkkF