¿Se puede aproximar la solución de un sistema lineal de ecuaciones solo para las primeras variables?

15

Tengo un sistema lineal de ecuaciones de tamaño mxm, donde m es grande. Sin embargo, las variables que me interesan son solo las primeras n variables (n es pequeña en comparación con m). ¿Hay alguna manera de aproximar la solución para los primeros valores de m sin tener que resolver todo el sistema? Si es así, ¿sería esta aproximación más rápida que resolver el sistema lineal completo?

linear-algebra approximation

— Paul
fuente

2

No, a menos que su función de forzado también esté restringida a las primeras n variables. Si es así, puede formar el complemento Schur, aunque es probable que sea denso. Si su operador original es escaso, puede que no valga la pena.

— Jack Poulson

1

Supongo que podría usar la eliminación gaussiana a partir de la esquina inferior derecha de la matriz. Esto sería ~ 2 veces más rápido que la eliminación gaussiana regular si solo te preocupan los primeros elementos y te detienes a la mitad. No sé cómo se compararía con los métodos iterativos.

— Dan

44

@OscarB: Por favor no. La regla de Cramer es una atrocidad en aritmética de coma flotante. Nunca he oído que se use para cálculos serios, y se necesita una buena cantidad de pensamiento para evitar la complejidad factorial , donde todavía no es competitivo con la eliminación gaussiana.

— Jack Poulson

1

@Paul: La mayor parte de la reducción del orden del modelo se usa en el contexto de grandes sistemas ODE o DAE. A veces, las metodologías de reducción están motivadas por los sistemas ODE o DAE que surgen de la discretización de PDEs. No he visto la reducción de modelos utilizada en ecuaciones puramente algebraicas. (Si es así, por favor envíeme referencias, porque estoy haciendo mi tesis sobre métodos de reducción de modelos y estaría muy interesado en verla). Si lo desea, podría esbozar cómo se vería la reducción de modelos si tratamos ecuaciones algebraicas como un caso degenerado de un sistema de ecuaciones algebraicas diferenciales.

— Geoff Oxberry

1

@JackPoulson: ¿te importaría resumir tu comentario como respuesta? Creo que es la solución más correcta y no quiero que se pierda en los comentarios.

— Aron Ahmadia

13

Como otros han señalado, esto es difícil de hacer con un solucionador directo. Dicho esto, no es tan difícil de hacer con solucionadores iterativos. Con este fin, tenga en cuenta que la mayoría de los solucionadores iterativos de una forma u otra minimizan el error con respecto a alguna norma. A menudo, esta norma es inducida por la matriz misma, pero a veces también es solo la norma del vector l2. Pero ese no tiene por qué ser el caso: puede elegir en qué norma quiere minimizar el error (o residual) y, por ejemplo, puede elegir una norma en la que pese los componentes que le interesan con 1 y todos los demás con 1e-12, es decir, por ejemplo, algo como (1e-24) y el producto escalar correspondiente. Luego, escriba todos los pasos del solucionador iterativo con respecto a esta norma y producto escalar, y obtendrá un solucionador iterativo que presta mucha más atención a los elementos vectoriales que le interesan que a los demás. $|| x ||^2 = \sum_{i=1}^5 x_i^2 +$ $\sum_{i=6}^N x_i^2$

La pregunta, por supuesto, es si necesita menos iteraciones que con el producto estándar / escalar que pesa todos los componentes por igual. Pero ese debería ser el caso: digamos que solo te importan los cinco primeros elementos vectoriales. Entonces debería necesitar como máximo cinco iteraciones para reducir el error en un factor de 1e12 ya que cinco iteraciones es lo que se necesita para el sistema 5x5 que las describe. Eso no es una prueba, pero estoy bastante seguro de que debería salirse con una cantidad mucho menor de iteraciones si el peso en la norma (1e-12 arriba) es menor que la tolerancia con la que desea resolver el sistema lineal de forma iterativa .

— Wolfgang Bangerth
fuente

2

Hmm, buen punto. Me interesaría ver un ejemplo real, ya que de alguna manera me preocupan los efectos de solo intentar resolver algunos grados de libertad; a pesar de que el residuo puede ser pequeño, tal vez la norma del error sigue siendo bastante grande (ignorar efectivamente a la mayoría del operador).

— Jack Poulson

Intuitivamente, esto solo parece funcionar si los componentes del sistema muy pequeño realmente dominan la respuesta en un sentido L2 (o la norma en la que entiende que se mide su error). De lo contrario, creo que la preocupación de Jack es válida, pero definitivamente estaría interesado incluso en ver una prueba numérica de esto ...

— Aron Ahmadia

Uno debería asegurarse de tomar un método que minimice el error , no el residual. Creo que MinErr podría ser un buen punto de partida.

— Wolfgang Bangerth

@ WolfgangBangerth: No estoy familiarizado con MINERR: ¿es esta la referencia principal?

— Jack Poulson

1

Incluso eso no es suficiente, porque serás inexacto. No puede obtener algunos componentes con precisión utilizando esta ponderación.

— Matt Knepley

17

Formando el complemento Schur

Suponga que ha permutado y dividido su matriz en el formulario

UN = (\begin{array}{cc} {UN}_{11} & {UN}_{12} \\ {UN}_{21} & {UN}_{22} \end{array}),

$A=\left(\begin{array}{cc}A_{11} & A_{12} \\ A_{21} & A_{22}\end{array}\right),$

tal que contenga sus grados de libertad de interés y sea mucho más pequeño que , entonces uno puede formar el complemento Schur $A_{22}$ $A_{11}$

S_{22} : = {UN}_{22} - {UN}_{21} {UN}_{11}^{- 1} {UN}_{12},

$S_{22} := A_{22} - A_{21} A_{11}^{-1} A_{12},$

ya sea a través de una factorización LU parcial de aspecto correcto o la fórmula explícita, y luego puede entenderse en el siguiente sentido: $S_{22}$

S_{22} X = y \to (\begin{array}{cc} {UN}_{11} & {UN}_{12} \\ {UN}_{21} & {UN}_{22} \end{array}) (\begin{matrix} ⋆ \\ X \end{matrix}) = (\begin{matrix} 0 0 \\ y \end{matrix}),

$S_{22} x = y \;\;\rightarrow\;\; \left(\begin{array}{cc}A_{11} & A_{12}\\ A_{21} & A_{22}\end{array}\right) \left(\begin{array}{c}\star\\ x\end{array}\right)=\left(\begin{array}{c}0\\ y\end{array}\right),$

donde representa la parte 'poco interesante' de la solución. Por lo tanto, dado un lado derecho que no es cero en los grados de libertad del complemento Schur , solo necesitamos resolver contra para obtener la porción de la solución correspondiente a esos grados de libertad. $\star$ $S_{22}$ $S_{22}$

Complejidad computacional en caso denso no estructurado

Configuración de a la altura de y a la altura de , a continuación, el método estándar para el cálculo de es a primera factor de (Ignoremos pivotante por ahora) en aproximadamente trabajos, luego formar $N$ $A$ $n$ $A_{22}$ $S_{22}$ $L_{11} U_{11} := A_{11}$ $2/3 (N-n)^3$

S_{22} := A_{22} - (A_{21} U_{11}^{- 1}) (L_{11}^{- 1} A_{12}) = A_{22} - A_{21} A_{11}^{- 1} A_{12}

$S_{22} := A_{22} - (A_{21} U_{11}^{-1})(L_{11}^{-1} A_{12}) = A_{22} - A_{21} A_{11}^{-1} A_{12}$

usando dos soluciones triangulares que requieren trabajo cada una, y luego realizando la actualización a en trabajo. $n(N-n)^2$ $A_{22}$ $2n^2 (N-n)$

Por lo tanto, el trabajo total es aproximadamente . Cuando es muy pequeño, , por lo que el coste puede ser visto a ser aproximadamente , que es el costo de una factorización completa. $2/3 (N-n)^3 + 2n(N-n)^2 + 2n^2 (N-n)$ $n$ $N-n \approx N$ $2/3 N^3$

El beneficio es que, si hay una gran cantidad de lados derechos para resolver con el mismo sistema de ecuaciones, entonces podría potencialmente reutilizarse una gran cantidad de veces, donde cada resolución solo requeriría trabajo (en lugar de funciona) si está factorizado. $S_{22}$ $2n^2$ $2N^2$ $S_{22}$

Complejidad computacional en el caso disperso (típico)

Si su sistema disperso surgió de algún tipo de aproximación por diferencias finitas o elementos finitos, entonces los solucionadores directos dispersos seguramente podrán explotar parte de la estructura; Sistemas 2D se pueden resolver con de trabajo y de almacenamiento, mientras que los sistemas 3D se pueden resolver con de trabajo y de almacenamiento. Los sistemas factorizados se pueden resolver con la misma cantidad de trabajo que los requisitos de almacenamiento. $O(N^{3/2})$ $O(N \log N)$ $O(N^2)$ $O(N^{4/3})$

El punto de plantear las complejidades computacionales es que, si y usted tiene un sistema 2d, entonces dado que el complemento de Schur probablemente será denso, la complejidad de resolución dado el complemento de Schur factorizado será, que solo le falta un factor logarítmico en lugar de resolver el completo ¡sistema! En 3D, que requieretrabajo en lugar de. $n \approx \sqrt{N}$ $O(n^2) = O(N)$ $O(N)$ $O(N^{4/3})$

Por lo tanto, es importante tener en cuenta que, en su caso, donde , solo habrá ahorros significativos si está trabajando en varias dimensiones y tiene muchos lados derechos para resolver. $n=\sqrt{N}$

— Jack Poulson
fuente

1

¡Este es un gran resumen del método de complemento schur y cuando es computacionalmente eficiente usarlo!

— Paul

6

El enfoque de reducción modelo

Como Paul preguntó, hablaré sobre lo que sucede si usa métodos de reducción de modelos basados en proyección para este problema. Suponga que podría llegar a un proyector tal que el rango de , denotado , contenga la solución a su sistema lineal , y tenga una dimensión , donde es el número de incógnitas para las cuales usted desea resolver en un sistema lineal. $\mathbf{P}$ $\mathbf{P}$ $\mathcal{R}(\mathbf{P})$ $\mathbf{Ax} = \mathbf{b}$ $k$ $k$

Una descomposición de valor singular de producirá la siguiente matriz particionada: $\mathbf{P}$

P = [\begin{array}{cc} V & * \end{array}] [\begin{array}{cc} d i a g (1_{k}) & 0 \\ 0 & 0 \end{array}] [\begin{matrix} W^{T} \\ * \end{matrix}] .

$\mathbf{P} = \left[ \begin{array}{cc}\mathbf{V} & * \end{array} \right]\left[\begin{array}{cc}\mathrm{diag}(\mathbf{1}_{k}) & \mathbf{0} \\ \mathbf{0} & \mathbf{0}\end{array}\right]\left[\begin{array}{c} \mathbf{W}^{T} \\ *\end{array}\right].$

Las matrices oscurecidas por las estrellas son importantes para otras cosas (como error de estimación, etc.), pero por ahora, evitaremos tratar con detalles extraños. Resulta que

P = {V W}^{T}

$\mathbf{P} = \mathbf{VW}^{T}$

es una descomposición de rango completo de . $\mathbf{P}$

Esencialmente, resolverás el sistema

P A x = P b

$\mathbf{PAx} = \mathbf{Pb}$

de una manera inteligente, ya que y también tienen la propiedad de que . Multiplicando ambos lados de por y dejando que ser una aproximación para rendimientos $\mathbf{V}$ $\mathbf{W}$ $\mathbf{W}^{T}\mathbf{V} = \mathbf{I}$ $\mathbf{PAx} = \mathbf{Pb}$ $\mathbf{W}^{T}$ $\mathbf{y} = \mathbf{V}\widehat{\mathbf{x}}$ $\mathbf{x}$

W^{T} A \hat{x} = W^{T} b .

$\mathbf{W}^{T}\mathbf{A}\widehat{\mathbf{x}} = \mathbf{W}^{T}\mathbf{b}.$

Resuelve para , premultiplicar por , y usted tiene , a su aproximación para . $\widehat{\mathbf{x}}$ $\mathbf{V}$ $\mathbf{y}$ $\mathbf{x}$

¿Por qué el enfoque de complemento de Schur es probablemente mejor?

Para empezar, debes elegir alguna manera. Si la solución a está en , entonces , e no es una aproximación. De lo contrario, , e introduce algún error de aproximación. Este enfoque realmente no aprovecha toda la estructura que mencionó que desea explotar. Si elegimos modo que su rango sea la base de la unidad estándar en las coordenadas de que desea calcular, las coordenadas correspondientes de tendrán errores. No está claro cómo te gustaría elegir $\mathbf{P}$ $\mathbf{Ax} = \mathbf{b}$ $\mathcal{R}(\mathbf{P})$ $\mathbf{y} = \mathbf{x}$ $\mathbf{y}$ $\mathbf{y} \neq \mathbf{x}$ $\mathbf{P}$ $\mathbf{x}$ $\mathbf{y}$ . Podría utilizar una SVD de , por ejemplo, y seleccionar para que sea el producto de los primeros vectores singulares izquierdos de y el adjunto de los primeros vectores singulares derechos de , suponiendo que los vectores singulares estén dispuestos en orden decreciente de valor singular Esta elección de proyector sería equivalente a realizar una descomposición ortogonal adecuada en , y minimizaría elerror deL en la solución aproximada. $\mathbf{P}$ $\mathbf{A}$ $\mathbf{P}$ $k$ $\mathbf{A}$ $k$ $\mathbf{A}$ $\mathbf{A}$ $_{2}$

$\mathbf{V}$ $\mathbf{W}$ $\mathbf{P}$

Los inconvenientes son muy parecidos al enfoque de JackPoulson, excepto que no estás aprovechando la estructura que mencionaste.

— Geoff Oxberry
fuente

4

La respuesta larga es ... más o menos.

$k$

$n-k$ $n$

Además, tenga en cuenta que la restricción de la orden en el que se va a realizar la copia de substituion puede restringir la forma de la matriz (que le quita la capacidad de las columnas de intercambio) que podría posiblemente conducir a un sistema mal condicionado, pero no estoy seguro de eso, solo algo a tener en cuenta.

— drjrm3
fuente

O (n^{3})

$O(n^3)$

O (n^{2})

$O(n^2)$

n

$n$

por eso la respuesta es "más o menos" en lugar de "sí" =)

— drjrm3

Tiene sentido que se pueda hacer de esta manera ... Sin embargo, la mayor parte del cálculo en una Eliminación Gaussiana está en la fase de eliminación directa, produciendo una complejidad O (n ^ 3) a pesar de la fase de sustitución hacia atrás truncada. Esperaba que hubiera un método más rápido ...

— Paul