¿Cuál es el principio detrás de la convergencia de los métodos del subespacio de Krylov para resolver sistemas lineales de ecuaciones?

Según tengo entendido, hay dos categorías principales de métodos iterativos para resolver sistemas lineales de ecuaciones:

Métodos estacionarios (Jacobi, Gauss-Seidel, SOR, Multigrid)
Métodos del subespacio de Krylov (gradiente conjugado, GMRES, etc.)

Entiendo que la mayoría de los métodos estacionarios funcionan relajando iterativamente (suavizando) los modos de Fourier del error. Como yo lo entiendo, el método de gradiente conjugado (método de subespacio de Krylov) funciona mediante el "paso a paso" a través de un conjunto óptimo de direcciones de búsqueda de las potencias de la matriz aplicada al $n$ º residual. ¿Es este principio común a todos los métodos del subespacio de Krylov? Si no, ¿cómo caracterizamos el principio detrás de la convergencia de los métodos del subespacio de Krylov, en general?

— Paul
fuente

Su análisis de los métodos estacionarios está sesgado por problemas simples del modelo, porque estos pueden analizarse en términos de modos de Fourier. También ignora la dirección alterna implícita (ADI) y muchos otros métodos. El punto de la mayoría de los "Métodos estacionarios" es combinar muchos solucionadores simples "aproximados parciales" en un solucionador iterativo. El objetivo de los métodos de Krylov es acelerar (o incluso imponer) la convergencia de una iteración lineal estacionaria dada.

— Thomas Klimpel

Un artículo que creo que fue escrito para responder a sus preguntas es Ipsen y Meyer, La idea detrás de los métodos de Krylov, Amer. Mates. Mensual 105 (1998) pp. 889-899. Es un documento maravillosamente bien escrito y clarificador, disponible aquí .

— Andrew T. Barker

@ AndrewT.Barker: ¡Impresionante! Gracias Andrew! :)

— Paul

Respuestas:

En general, todos los métodos de Krylov buscan esencialmente un polinomio que sea pequeño cuando se evalúa en el espectro de la matriz. En particular, el º residual de un método Krylov (con conjetura inicial cero) se puede escribir en la forma $n$

r_{n} = P_{n} (A) b

$r_n = P_n (A) b$

donde es algún polinomio monico de grado . $P_n$ $n$

Si es diagonalizable, con , tenemos $A$ $A=V\Lambda V^{-1}$

\begin{array}{rcl} ‖ r_{n} ‖ & \leq & ‖ V ‖ \cdot ‖ P_{n} (Λ) ‖ \cdot ‖ V^{- 1} ‖ \cdot ‖ b ‖ \\ = & κ (V) \cdot ‖ P_{n} (Λ) ‖ \cdot ‖ b ‖ . \end{array}

$\begin{eqnarray*} \|r_n\| &\leq& \|V\|\cdot \|P_n(\Lambda)\|\cdot \|V^{-1}\|\cdot \|b\|\\ &=& \kappa(V) \cdot \|P_n(\Lambda)\| \cdot \|b\|. \end{eqnarray*}$

En el caso de que sea normal (p. Ej., Simétrica o unitaria), sabemos que GMRES construye dicho polinomio a través de la iteración de Arnoldi, mientras que CG construye el polinomio usando un producto interno diferente (vea esta respuesta para más detalles) . Del mismo modo, BiCG construye su polinomio a través del proceso de Lanczos no simétrico, mientras que la iteración de Chebyshev utiliza información previa sobre el espectro (generalmente estimaciones de los valores propios más grandes y más pequeños para matrices simétricas definidas). $A$ $\kappa(V) = 1.$

Como un buen ejemplo (motivado por Trefethen + Bau), considere una matriz cuyo espectro es este:

Espectro de matriz

En MATLAB, construí esto con:

A = rand(200,200);
[Q R] = qr(A);
A = (1/2)*Q + eye(200,200);

Si consideramos GMRES, que construye polinomios que realmente minimizan el residuo sobre todos los polinomios monicos de grado , podemos predecir fácilmente el historial residual observando el polinomio candidato $n$

P_{n} (z) = (1 - z)^{n}

$P_n (z) = (1-z)^n$

que en nuestro caso da

| P_{n} (z) | = \frac{1}{2^{n}}

$|P_n(z)| = \frac{1}{2^n}$

para en el espectro de . $z$ $A$

Ahora, si ejecutamos GMRES en un RHS aleatorio y comparamos el historial residual con este polinomio, deberían ser bastante similares (los valores de polinomios candidatos son más pequeños que el residual de GMRES porque ): $\|b\|_2 > 1$

Historia residual

— Reid.Atcheson
fuente

¿Podría aclarar qué quiere decir con "pequeño en el espectro de la matriz"?

— Paul

Tomado como un polinomio complejo, el polinomio

tiene un pequeño módulo en una región del plano complejo que incluye el espectro de

. Imagine una gráfica de contorno superpuesta a una gráfica de dispersión de los valores propios. ¿Qué tan pequeño es pequeño? Depende del problema, si

es normal y el lado derecho

Sin embargo, la idea básica es que la secuencia de polinomios

busca hacerse progresivamente más y más pequeña en el espectro, de modo que la estimación residual en mi respuesta tiende a

P_{n}

$P_n$

A

$A$

A

$A$

b .

$b.$

(P_{n})

$(P_n)$

0

$0$

— Reid.Atcheson

@ Reid.Atcheson: Muy bien dicho. ¿Puedo recomendar escribir

como

y mencionar que es uno para matrices normales?

‖ V ‖ ‖ V^{- 1} ‖

$\|V\|\|V^{-1}\|$

κ (V)

$\kappa(V)$

— Jack Poulson

El preacondicionado laplaciano por SOR óptimo tiene un espectro muy similar a esta matriz de ejemplo. Detalles aquí: scicomp.stackexchange.com/a/852/119

— Jed Brown

Estrictamente hablando, CGNE es independiente del espectro ya que depende solo de valores singulares.

— Jed Brown el

En las normas

Como un apéndice a la respuesta de Reid.Atcheson, me gustaría aclarar algunos problemas con respecto a las normas. Al iteración, GMRES encuentra el polinomio que minimiza el -norma de la residual $n^{\mathrm{th}}$ $P_n$ $2$

r_{n} = A x_{n} - b = (P_{n} (A) - 1) b - b = P_{n} (A) b .

$r_n = A x_n - b = \big(P_n(A) - 1 \big)b - b = P_n(A) b .$

Supongamos que es SPD, por lo que induce una norma y también $A$ $A$ $A^{-1}$ . Luego

\begin{aligned} ‖ r_{n} ‖_{A^{- 1}} & = r_{n}^{T} A^{- 1} r_{n} \\ = (A e_{n})^{T} A^{- 1} A e_{n} \\ = e_{n}^{T} A e_{n} \\ = ‖ e_{n} ‖_{A} \end{aligned}

$\begin{align*} \lVert r_n \rVert_{A^{-1}} &= r_n^T A^{-1} r_n \\ &= (A e_n)^T A^{-1} A e_n \\ &= e_n^T A e_n \\ &= \lVert e_n \rVert_{A} \end{align*}$

donde hemos usado el error

e_{n} = x_{n} - x_{*} = x_{n} - A^{- 1} b = A^{- 1} r_{n}

$e_n = x_n - x_* = x_n - A^{-1} b = A^{-1} r_n$

Thus the $A$ -norm of the error is equivalent to the $A^{-1}$ norm of the residual. Conjugate gradients minimizes the $A$ -norm of the error which makes it relatively more accurate at resolving low energy modes. The $2$ -norm of the residual, which GMRES minimizes, is like the $A^T A$ -norm of the error, and thus is weaker in the sense that low-energy modes are less well-resolved. Note that the $A$ -norm of the residual is essentially worthless because it is even weaker on low-energy modes.

Sharpness of convergence bounds

Finally, there is interesting literature regarding different Krylov methods and subtleties of GMRES convergence, especially for non-normal operators.

Nachtigal, Reddy, and Trefethen (1992) How fast are nonsymmetric matrix iterations? (author's pdf) gives examples of matrices for which one method beats all others by a large factor (at least the square root of the matrix size).
Embree (1999) How descriptive are GMRES convergence bounds? gives an insightful discussion in terms of pseudospectra which give sharper bounds and also applies to non-diagonalizable matrices.
Embree (2003) The tortoise and the hare restart GMRES (author pdf)
Greenbaum, Pták, and Strakoš (1996) Any nonincreasing convergence curve is possible for GMRES

— Jed Brown
fuente

Dejaste el excelente libro de Olavi Nevanlinna: books.google.com/…

— Matt Knepley

Métodos iterativos en pocas palabras:

Los métodos estacionarios son esencialmente iteraciones de punto fijo : para resolver $Ax=b$ , eliges una matriz invertible $C$ y encontrar un punto fijo de
$X = X + do si - do UNA X$ $x = x + Cb- CAx$ Esto converge por el teorema del punto fijo de Banach si $\|I-CA\|<1$ . Los diversos métodos corresponden a una elección específica de $C$ (por ejemplo, para la iteración de Jacobi, $C=D^{-1}$ , dónde $D$ es una matriz diagonal que contiene los elementos diagonales de $A$ )
Los métodos de Krylov son métodos de subespacio en esencia métodos de proyección : elige subespacios $U,V\subset \mathbb{C}^n$ and look for a $\tilde x \in U$ such that the residual $b-A\tilde x$ is orthogonal to $V$ . For Krylov methods, $U$ of course is the space spanned by powers of $A$ applied to an initial residual. The various methods then correspond to specific choices of $V$ (e.g., $V=U$ for CG and $V=AU$ for GMRES).

The convergence properties of these methods (and projection methods in general) follow from the fact that due to the respective choice of $V$ , the $\tilde x$ are optimal over $U$ (e.g., they minimize the error in the energy norm for CG or the residual for GMRES). If you increase the dimension of $U$ in every iteration, you are guaranteed (in exact arithmetic) to find the solution after finitely many steps.

Como señaló Reid Atcheson, usar espacios de Krylov para $U$ le permite probar tasas de convergencia en términos de valores propios (y, por lo tanto, el número de condición) de $A$ . Además, son cruciales para derivar algoritmos eficientes para calcular la proyección $\tilde x$ .

Esto se explica muy bien en el libro de Youcef Saad sobre métodos iterativos .

— Christian Clason
fuente