Cuando observa la situación de la manera correcta, la conclusión es intuitivamente obvia e inmediata.
Este post ofrece dos demostraciones. El primero, inmediatamente debajo, está en palabras. Es equivalente a un dibujo simple, que aparece al final. En el medio hay una explicación de lo que significan las palabras y el dibujo.
La matriz de covarianza para las observaciones de p -variable es una matriz p × p calculada multiplicando a la izquierda una matriz X n p (los datos registrados) por su transposición X ' p n . Este producto de matrices envía vectores a través de una tubería de espacios vectoriales en los que las dimensiones son p y n . En consecuencia, la matriz de covarianza, qua transformación lineal, enviará R n a un subespacio cuya dimensión es como máximo min ( p , n ) .n pp×pXnpX′pnpnRnmin(p,n)Es inmediato que el rango de la matriz de covarianza no sea mayor que . min(p,n) En consecuencia, si entonces el rango es a lo sumo n , que, siendo estrictamente menor que p, significa que la matriz de covarianza es singular.p>nnp
Toda esta terminología se explica completamente en el resto de esta publicación.
(Como Amoeba señaló amablemente en un comentario ahora eliminado, y muestra en una respuesta a una pregunta relacionada , la imagen de realidad se encuentra en un subespacio codimension-one de R n (que consta de vectores cuyos componentes suman cero) porque todas las columnas se han vuelto a centrar en cero. Por lo tanto, el rango de la matriz de covarianza de muestra 1XRnno puede excedern-1.)1n−1X′Xn−1
El álgebra lineal tiene que ver con el seguimiento de las dimensiones de los espacios vectoriales. Solo necesita apreciar algunos conceptos fundamentales para tener una intuición profunda para las afirmaciones sobre rango y singularidad:
La multiplicación de matrices representa transformaciones lineales de vectores. Una matriz M representa una transformación lineal de un espacio n -dimensional V n a un espacio m -dimensional V m . Específicamente, envía cualquier x ∈ V n a M x = y ∈ V m . Que se trata de una transformación lineal se deduce inmediatamente de la definición de transformación lineal y propiedades aritméticas básicas de la multiplicación de matrices.m×nMnVnmVmx∈VnMx=y∈Vm
Las transformaciones lineales nunca pueden aumentar las dimensiones. Esto significa que la imagen de todo el espacio vectorial bajo la transformación M (que es un espacio sub-vector de V m ) puede tener una dimensión no mayor que n . Este es un teorema (fácil) que se deriva de la definición de dimensión.VnMVmn
La dimensión de cualquier espacio sub-vector no puede exceder la del espacio en el que se encuentra. Este es un teorema, pero nuevamente es obvio y fácil de probar.
El rango de una transformación lineal es la dimensión de su imagen. El rango de una matriz es el rango de la transformación lineal que representa. Estas son definiciones.
Una matriz singular tiene un rango estrictamente menor que nMmnn (la dimensión de su dominio). En otras palabras, su imagen tiene una dimensión más pequeña. Esta es una definición.
Para desarrollar la intuición, es útil ver las dimensiones. Por lo tanto, escribiré las dimensiones de todos los vectores y matrices inmediatamente después de ellos, como en y x n . Así, la fórmula genéricaMmnxn
ym=Mmnxn
is intended to mean that the m×n matrix M, when applied to the n-vector x, produces an m-vector y.
Products of matrices can be thought of as a "pipeline" of linear transformations. Generically, suppose ya is an a-dimensional vector resulting from the successive applications of the linear transformations Mmn,Llm,…,Bbc, and Aab to the n-vector xn coming from the space Vn. This takes the vector xn successively through a set of vector spaces of dimensions m,l,…,c,b, and finally a.
Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image of Vn cannot exceed the smallest dimension min(a,b,c,…,l,m,n) encountered in the pipeline.
This diagram of the pipeline, then, fully proves the result when it is applied to the product X′X: