¿Cuál es el principio detrás de la convergencia de los métodos del subespacio de Krylov para resolver sistemas lineales de ecuaciones?


24

Según tengo entendido, hay dos categorías principales de métodos iterativos para resolver sistemas lineales de ecuaciones:

  1. Métodos estacionarios (Jacobi, Gauss-Seidel, SOR, Multigrid)
  2. Métodos del subespacio de Krylov (gradiente conjugado, GMRES, etc.)

Entiendo que la mayoría de los métodos estacionarios funcionan relajando iterativamente (suavizando) los modos de Fourier del error. Como yo lo entiendo, el método de gradiente conjugado (método de subespacio de Krylov) funciona mediante el "paso a paso" a través de un conjunto óptimo de direcciones de búsqueda de las potencias de la matriz aplicada al n º residual. ¿Es este principio común a todos los métodos del subespacio de Krylov? Si no, ¿cómo caracterizamos el principio detrás de la convergencia de los métodos del subespacio de Krylov, en general?


2
Su análisis de los métodos estacionarios está sesgado por problemas simples del modelo, porque estos pueden analizarse en términos de modos de Fourier. También ignora la dirección alterna implícita (ADI) y muchos otros métodos. El punto de la mayoría de los "Métodos estacionarios" es combinar muchos solucionadores simples "aproximados parciales" en un solucionador iterativo. El objetivo de los métodos de Krylov es acelerar (o incluso imponer) la convergencia de una iteración lineal estacionaria dada.
Thomas Klimpel

44
Un artículo que creo que fue escrito para responder a sus preguntas es Ipsen y Meyer, La idea detrás de los métodos de Krylov, Amer. Mates. Mensual 105 (1998) pp. 889-899. Es un documento maravillosamente bien escrito y clarificador, disponible aquí .
Andrew T. Barker

@ AndrewT.Barker: ¡Impresionante! Gracias Andrew! :)
Paul

Respuestas:


21

En general, todos los métodos de Krylov buscan esencialmente un polinomio que sea pequeño cuando se evalúa en el espectro de la matriz. En particular, el º residual de un método Krylov (con conjetura inicial cero) se puede escribir en la forman

rn=Pn(A)b

donde es algún polinomio monico de grado n .Pnn

Si es diagonalizable, con A = V Λ V - 1 , tenemosAA=VΛV1

rnVPn(Λ)V1b=κ(V)Pn(Λ)b.

En el caso de que sea ​​normal (p. Ej., Simétrica o unitaria), sabemos que κ ( V ) = 1. GMRES construye dicho polinomio a través de la iteración de Arnoldi, mientras que CG construye el polinomio usando un producto interno diferente (vea esta respuesta para más detalles) . Del mismo modo, BiCG construye su polinomio a través del proceso de Lanczos no simétrico, mientras que la iteración de Chebyshev utiliza información previa sobre el espectro (generalmente estimaciones de los valores propios más grandes y más pequeños para matrices simétricas definidas).Aκ(V)=1.

Como un buen ejemplo (motivado por Trefethen + Bau), considere una matriz cuyo espectro es este:

Espectro de matriz

En MATLAB, construí esto con:

A = rand(200,200);
[Q R] = qr(A);
A = (1/2)*Q + eye(200,200);

Si consideramos GMRES, que construye polinomios que realmente minimizan el residuo sobre todos los polinomios monicos de grado , podemos predecir fácilmente el historial residual observando el polinomio candidaton

Pn(z)=(1z)n

que en nuestro caso da

|Pn(z)|=12n

para en el espectro de A .zA

Ahora, si ejecutamos GMRES en un RHS aleatorio y comparamos el historial residual con este polinomio, deberían ser bastante similares (los valores de polinomios candidatos son más pequeños que el residual de GMRES porque ):b2>1

Historia residual


¿Podría aclarar qué quiere decir con "pequeño en el espectro de la matriz"?
Paul

2
Tomado como un polinomio complejo, el polinomio tiene un pequeño módulo en una región del plano complejo que incluye el espectro de A . Imagine una gráfica de contorno superpuesta a una gráfica de dispersión de los valores propios. ¿Qué tan pequeño es pequeño? Depende del problema, si A es normal y el lado derecho b . Sin embargo, la idea básica es que la secuencia de polinomios ( P n ) busca hacerse progresivamente más y más pequeña en el espectro, de modo que la estimación residual en mi respuesta tiende a 0 . PnAAb.(Pn)0
Reid.Atcheson

@ Reid.Atcheson: Muy bien dicho. ¿Puedo recomendar escribir como κ ( V ) y mencionar que es uno para matrices normales? VV1κ(V)
Jack Poulson

El preacondicionado laplaciano por SOR óptimo tiene un espectro muy similar a esta matriz de ejemplo. Detalles aquí: scicomp.stackexchange.com/a/852/119
Jed Brown

Estrictamente hablando, CGNE es independiente del espectro ya que depende solo de valores singulares.
Jed Brown el

17

En las normas

Como un apéndice a la respuesta de Reid.Atcheson, me gustaría aclarar algunos problemas con respecto a las normas. Al iteración, GMRES encuentra el polinomio P n que minimiza el 2 -norma de la residualnthPn2

rn=Axnb=(Pn(A)1)bb=Pn(A)b.

Supongamos que es SPD, por lo que A induce una norma y también A - 1AAA1 . Luego

rnA1=rnTA1rn=(Aen)TA1Aen=enTAen=enA

donde hemos usado el error

en=xnx=xnA1b=A1rn

Thus the A-norm of the error is equivalent to the A1 norm of the residual. Conjugate gradients minimizes the A-norm of the error which makes it relatively more accurate at resolving low energy modes. The 2-norm of the residual, which GMRES minimizes, is like the ATA-norm of the error, and thus is weaker in the sense that low-energy modes are less well-resolved. Note that the A-norm of the residual is essentially worthless because it is even weaker on low-energy modes.

Sharpness of convergence bounds

Finally, there is interesting literature regarding different Krylov methods and subtleties of GMRES convergence, especially for non-normal operators.


Dejaste el excelente libro de Olavi Nevanlinna: books.google.com/…
Matt Knepley

11

Métodos iterativos en pocas palabras:

  1. Los métodos estacionarios son esencialmente iteraciones de punto fijo : para resolverUNAX=si, eliges una matriz invertible do y encontrar un punto fijo de

    X=X+dosi-doUNAX
    Esto converge por el teorema del punto fijo de Banach si yo-doUNA<1. Los diversos métodos corresponden a una elección específica dedo (por ejemplo, para la iteración de Jacobi, do=re-1, dónde re es una matriz diagonal que contiene los elementos diagonales de UNA)
  2. Los métodos de Krylov son métodos de subespacio en esencia métodos de proyección : elige subespaciosU,VCn and look for a x~U such that the residual bAx~ is orthogonal to V. For Krylov methods, U of course is the space spanned by powers of A applied to an initial residual. The various methods then correspond to specific choices of V (e.g., V=U for CG and V=AU for GMRES).

    The convergence properties of these methods (and projection methods in general) follow from the fact that due to the respective choice of V, the x~ are optimal over U (e.g., they minimize the error in the energy norm for CG or the residual for GMRES). If you increase the dimension of U in every iteration, you are guaranteed (in exact arithmetic) to find the solution after finitely many steps.

    Como señaló Reid Atcheson, usar espacios de Krylov para U le permite probar tasas de convergencia en términos de valores propios (y, por lo tanto, el número de condición) de UNA. Además, son cruciales para derivar algoritmos eficientes para calcular la proyecciónX~.

    Esto se explica muy bien en el libro de Youcef Saad sobre métodos iterativos .

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.