Problemas donde el gradiente conjugado funciona mucho mejor que GMRES

17

Estoy interesado en casos en los que el gradiente Conjugate funciona mucho mejor que el método GMRES.

En general, CG es la opción preferible en muchos casos de SPD (simétrica-positiva-definida) porque requiere menos almacenamiento y el límite teórico en la tasa de convergencia para CG es el doble de ese GMRES. ¿Hay algún problema donde tales tasas se observan realmente? ¿Existe alguna caracterización de los casos en que GMRES se desempeña mejor o comparable a CG para el mismo número de spmvs (multiplicaciones de matriz-vector dispersas).

linear-solver conjugate-gradient gmres

— piyush_sao
fuente

8

Una cosa que CG tiene a su favor es que no está minimizando la discreta norma para sus polinomios residuales (lo que hace GMRES). En cambio, está minimizando una norma inducida por la matriz, y muy a menudo esta norma inducida por la matriz termina siendo muy cercana a la norma de energía para la discretización de problemas físicos, y con frecuencia esta es una norma mucho más razonable para medir el error debido a las propiedades de conservación. de la física $l^2$

De hecho, también puede lograr este tipo de efecto con GMRES si realizar una factorización Cholesky de una matriz de masa no es demasiado costoso, puede forzar a los productos internos a ser los productos internos de energía que desea.

Entonces, los casos en los que uno debería esperar que CG funcione de manera muy diferente a GMRES es cuando las constantes implicadas en la equivalencia de normas son muy diferentes. Esto puede ser cierto, por ejemplo, en un método de Galerkin espectral de alto orden donde la discreta norma utilizada en GMRES trata todos los grados de libertad como iguales, cuando en realidad los gradientes polinomiales son límites cercanos más nítidos (por lo tanto, agrupamiento de nodos), y así las constantes de equivalencia de la norma entre esa norma y decir la norma continua dada por la matriz de masa puede ser muy grande. $l^2$ $L^2$

— Reid.Atcheson
fuente

Quería dar un ejemplo aquí con un método de alto orden e historias de convergencia de CG, GMRES y GMRES + truco de Cholesky GMRES ... pero desafortunadamente el único código que tengo a mano para problemas de segundo orden es DG de la variedad no simétrica ... entonces CG no es 't su caso, me encantaría ver esto en acción.

— Reid.Atcheson

3

Creo que su respuesta llega a algo importante, pero desearía que lo aclarara. En particular, la pregunta es una pregunta de álgebra lineal pura, y su respuesta habla sobre normas físicas y matrices de masas, etc., de un PDE numérico. ¿Se puede decir algo preciso sobre cómo minimizar en diferentes normas dentro de las mismas Krylov espacio conduce a diferentes iteraciones?

— Andrew T. Barker

Aparte de los ejemplos numéricos, no creo que haya habido un estudio teórico cuidadoso que explique cómo las diferentes normas producen respuestas sustancialmente diferentes. Creo que el problema es que los resultados giran en torno a los asintóticos, y para un sistema lineal fijo, los resultados teóricos serán factores constantes de módulo idéntico. Si hay algunos estudios teóricos por ahí, me encantaría verlos, pero habiendo preguntado a algunos de los expertos en álgebra lineal numérica de mi departamento, no parece que haya un análisis teórico preciso que muestre lo que sucede con las diferentes normas.

— Reid.Atcheson

4

Sospecho que en general no hay mucha diferencia entre GMRES y CG para una matriz SPD.

Digamos que estamos resolviendo con simétrica definida positiva y la suposición de partida y itera generando con CG y GMRES, los llaman y . Ambos métodos iterativos construirán desde el mismo espacio de Krylov . Lo harán de maneras ligeramente diferentes. $Ax = b$ $A$ $x_0 = 0$ $x_k^c$ $x_k^g$ $x_k$ $K_k = \{ b, Ab, A^2b, \ldots \}$

CG se caracteriza por reducir al mínimo el error en la norma de la energía inducida por , de manera que $e_k^c = x - x_k^c$ $A$

(A e_{k}^{c}, e_{k}^{c}) = (A (x - x_{k}^{c}), x - x_{k}^{c}) = min_{y \in K} (A (x - y), x - y) .

$\begin{equation} (A e_k^c, e_k^c) = (A (x - x_k^c), x - x_k^c) = \min_{y \in K} (A (x-y), x-y). \end{equation}$

GMRES minimiza en cambio el residuo , y lo hace en la norma discreta , de modo que $r_k = b - A x^g_k$ $\ell^2$

(r_{k}, r_{k}) = (si - UN X_{k}^{sol}, si - UN X_{k}^{sol}) = min_{y \in K} (si - UN y, si - UN y) .

$\begin{equation} (r_k, r_k) = (b - A x_k^g, b - A x_k^g) = \min_{y \in K} (b - Ay, b - Ay). \end{equation}$ Ahora, utilizando la ecuación de error

podemos GMRES escribir también como minimizar

donde Quiero hacer hincapié en que esto sólo es válido para una matriz SPD

. Entonces tenemos CG minimizando el error con respecto a la

A e_{k} = r_{k}

$A e_k = r_k$

(r_{k}, r_{k}) = (UN {mi}_{k}^{sol}, UN {mi}_{k}^{sol}) = ({UN}^{2} {mi}_{k}^{sol}, {mi}_{k}^{sol})

$\begin{equation} (r_k, r_k) = (A e_k^g, A e_k^g) = (A^2 e_k^g, e_k^g) \end{equation}$

A

$A$

A

$A$ norma y GMRES minimizando el error con respecto a la norma

. Si queremos que se comporten de manera muy diferente, de manera intuitiva que necesitaríamos un

tal que estas dos normas son muy diferentes. Pero para SPD

estas normas se comportarán de manera bastante similar.

A^{2}

$A^2$

A

$A$

A

$A$

Para ser aún más específico, en la primera iteración con el espacio Krylov , tanto CG como GMRES construirán una aproximación de la forma . CG elegirá $K_1 = \{ b \}$ $x_1 = \alpha b$ y GMRES elegirá

α = \frac{(si, si)}{(UN si, si)}

$\begin{equation} \alpha = \frac{ (b,b) }{ (Ab,b) } \end{equation}$

Si

es diagonal con entradas

y

entonces como

el primer paso CG se convierte en doble de grande que los primeros GMRES paso. Probablemente se puede construir

y

α = \frac{(UN si, si)}{({UN}^{2} si, si)} .

$\begin{equation} \alpha = \frac{ (Ab,b) }{ (A^2b,b) }. \end{equation}$

A

$A$

(ϵ, 1, 1, 1, \dots)

$(\epsilon,1,1,1,\ldots)$

b = (1, 1, 0, 0, 0, \dots)

$b = (1,1,0,0,0,\ldots)$

ϵ \to 0

$\epsilon \rightarrow 0$

A

$A$

b

$b$ por lo que este factor de dos diferencia continúa a través de la iteración, pero dudo de que empeore que eso.

— Andrew T. Barker
fuente

2

b = (1, \sqrt{ϵ}, 0, 0, \dots)

$b = (1,\sqrt{\epsilon},0,0,\dotsc)$

| b | = \sqrt{1 + ϵ}

$|b| = \sqrt{1 + \epsilon}$

b^{T} A b = \sqrt{2} ϵ

$b^T A b = \sqrt{2} \epsilon$

b^{T} A^{2} b = ϵ \sqrt{1 + ϵ^{2}}

$b^T A^2 b = \epsilon \sqrt{1 + \epsilon^2}$

α_{CG} = \frac{ϵ^{- 1} + 1}{\sqrt{2}} \sim ϵ^{- 1}

$\alpha_{\text{CG}} = \frac{\epsilon^{-1}+1}{\sqrt 2} \sim \epsilon^{-1}$

α_{GMRES} = \sqrt{\frac{2}{1 + ϵ^{2}}} \sim \sqrt{2}

$\alpha_{\text{GMRES}} = \sqrt{\frac{2}{1 + \epsilon^2}} \sim \sqrt{2}$

ϵ^{- 1}

$\epsilon^{-1}$

3

Una cosa es que GMRES nunca se utiliza siempre que sea CG se puede aplicar. No creo que tiene sentido comparar estos dos. Para matrices SPD, CG es sin duda el ganador debido a los requisitos de almacenamiento y las razones que usted ha mencionado anteriormente. Una pregunta que sería interesante es, para encontrar una extensión de CG, que es aplicable a problemas donde CG no se puede aplicar. Existen métodos como BICG-puñalada que no requieren que aumenta linealmente memoria como GMRES, pero la convergencia no es tan buena como GMRES (algunas veces incluso con GMRES renovadas).

— user1964178
fuente

2

Existen los esquemas IDR que cierran la brecha entre GMRES y BiCG en términos de ahorro de memoria, estabilidad y convergencia: ta.twi.tudelft.nl/nw/users/gijzen/IDR.html No estoy seguro de estar de acuerdo en que GMRES no debe ser utilizado si CG podría ser. Si se puede hacer una factorización de Cholesky de una matriz que induce su norma de la energía, a continuación, se puede alimentar a que en una iteración de Lanczos simétrica y obtener una solución de recurrencia de tres términos que se comportan casi como CG. Por supuesto, CG es la opción más fácil, pero la opción está disponible :)

— Reid.Atcheson

2

Si utiliza un suave Krylov, por ejemplo, entonces es probable GMRES preferible, ya que utiliza una norma más débil que los valores propios objetivos más grandes que tienden a ser más altas frecuencias.

— Jed Brown