¿Existe una interpretación intuitiva de


107

Para una matriz de datos dada (con variables en columnas y puntos de datos en filas), parece que juega un papel importante en las estadísticas. Por ejemplo, es una parte importante de la solución analítica de los mínimos cuadrados ordinarios. O, para PCA, sus vectores propios son los componentes principales de los datos.AATA

Entiendo cómo calcular , pero me preguntaba si hay una interpretación intuitiva de lo que representa esta matriz, lo que lleva a su importante papel.ATA


2
El análisis puede proporcionar cierta intuición en stats.stackexchange.com/a/66295/919 .
whuber

Respuestas:


125

Geométricamente, matriz se llama matriz de productos escalares (= productos de punto, = productos internos). Algebraicamente, se llama matriz de suma de cuadrados y productos cruzados ( SSCP ).AA

Su -ésimo elemento diagonal es igual a , donde denota valores en la -ésima columna de y es la suma de las filas. El -ésimo elemento fuera de la diagonal es .a 2 ( i ) a ( i ) i A i j a ( i ) a ( j )ia(i)2a(i)iAija(i)a(j)

Hay varios coeficientes de asociación importantes y sus matrices cuadradas se llaman similitudes angulares o similitudes de tipo SSCP:

  • Al dividir la matriz SSCP por , el tamaño de la muestra o el número de filas de , se obtiene la matriz MSCP (media cuadrática y producto cruzado). La fórmula por pares de esta medida de asociación es, por lo tanto, (con los vectores e siendo un par de columnas de ).A x ynA xyAxynxyA

  • Si centra las columnas (variables) de , entonces es la dispersión (o co-dispersión, si es rigurosa) y es la covarianza matriz. La fórmula de covarianza por es con y denotan columnas centradas.A A A A / ( n - 1 ) c x c yAAAAA/(n1) cxcycxcyn1cxcy

  • Si z- estandariza columnas de (resta la media de la columna y divide por la desviación estándar), entonces es la matriz de correlación de Pearson : la correlación es la covarianza para las variables estandarizadas. La fórmula de correlación por es con z x y z y denotando columnas estandarizadas. La correlación también se llama coeficiente de linealidad.A A / ( n - 1 ) z x z yAAA/(n1)zxzyn1zxzy

  • Si las columnas de la unidad de escala de (llevan su SS, suma de cuadrados, a 1), entonces A A es la matriz de similitud de coseno . La fórmula por pares equivalente parece ser u x u y = x yAAA conuxydenotando columnas normalizadas L2. La similitud de coseno también se llama coeficiente de proporcionalidad.uxuy=xyx2y2uxuy

  • Si centra y luego columnas de escala unitaria de , entonces es nuevamente la matriz de correlación de Pearson , porque la correlación es coseno para las variables centradas 1 , 2 : c u x c u y = c x c yA AAAA1,2cuxcuy=cxcycx2cy2

Junto a estas cuatro medidas de asociación principales, mencionemos también otras, también basadas en , para rematar. Pueden verse como medidas alternativas a la similitud del coseno porque adoptan una normalización diferente de ella, el denominador en la fórmula:AA

  • El coeficiente de identidad [Zegers y ten Berge, 1985] tiene su denominador en forma de media aritmética en lugar de media geométrica: . Puede ser 1 si y solo si las columnas deA quesecomparanson idénticas.Xy(X2+y2)/ /2UNA

  • Otro coeficiente utilizable como este se llama relación de similitud : .xyx2+y2xy=xyxy+(xy)2

  • Finalmente, si los valores en no son negativos y su suma dentro de las columnas es 1 (por ejemplo, son proporciones), entonces A es la matriz defidelidadocoeficiente deBhattacharyya.AA


Una forma también de calcular la matriz de correlación o covarianza, utilizada por muchos paquetes estadísticos, evita centrar los datos y se aleja directamente de la matriz SSCP A ' A de esta manera. Sea s el vector de fila de las sumas de columna de datos A, mientras que n es el número de filas en los datos. Luego (1) calcule la matriz de dispersión como C = A A - s s / n [por lo tanto, C / ( n - 1 ) será la matriz de covarianza]; (2) la diagonal de C1AAsAnC=AAss/nC/(n1)Cson las sumas de desviaciones al cuadrado, vector de fila ; (3) calcular la matriz de correlación R = C / d .R=C/dd

Un lector agudo pero estadísticamente novato podría tener dificultades para conciliar las dos definiciones de correlación: como "covarianza" (que incluye el promedio por tamaño de muestra, la división pordf= "n-1") y como "coseno" (que implica no tal promedio). Pero, de hecho, no se produce un promedio real en la primera fórmula de correlación. La cosa es que st. la desviación, por la cual se logró la estandarización z, se había calculado a su vez con la división por ese mismodf; y entonces el denominador "n-1" en la fórmula de correlación como covarianza se cancela por completo si desenvuelve la fórmula: la fórmula seconvierte en la fórmula del coseno. Para calcular el valor de correlación empírica, realmentenonecesitasaber n2n (excepto al calcular la media, al centro).


42

La matriz contiene todos los productos interiores de todas las columnas de A . La diagonal contiene las normas cuadradas de las columnas. Si piensa en la geometría y las proyecciones ortogonales en el espacio de columna abarcado por las columnas en A , puede recordar que las normas y los productos internos de los vectores que abarcan este espacio juegan un papel central en el cálculo de la proyección. La regresión de mínimos cuadrados y los componentes principales se pueden entender en términos de proyecciones ortogonales.ATAAA

También tenga en cuenta que si las columnas de son ortonormales, formando así una base ortonormal para el espacio de la columna, entonces A T A = I - la matriz de identidad.AATA=I


39

@NRH dio una buena respuesta técnica.

Si quieres algo realmente básico, puedes pensar en como el equivalente matricial de A 2 para un escalar.UNATUNAUNA2


55
Aunque otras respuestas son más "técnicamente" correctas, esta es la respuesta más intuitiva.
CatsLoveJazz

3

Una visión importante de la geometría de es esta (el punto de vista fuertemente enfatizado en el libro de Strang sobre "Álgebra lineal y sus aplicaciones"): Suponga que A es una matriz m × n de rango k, que representa un mapa lineal A : R nR m . Deje Col (A) y la fila (A) sean los espacios de columna y fila de A . EntoncesAAm×nA:RnRmA

(a) Como una matriz simétrica real, tiene una base { e 1 , . . . , e n } de vectores propios con valores propios distintos de cero d 1 , ... , d k . Así:(AA):RnRn{e1,...,en}d1,,dk

.(AA)(x1e1++xnen)=d1x1e1+...+dkxkek

(b) Rango (A) = Col (A), por definición de Col (A). Entonces A | Fila (A) asigna la Fila (A) en Col (A).

(c) Kernel (A) es el complemento ortogonal de la fila (A). Esto se debe a que la multiplicación de matrices se define en términos de productos de punto (fila i) * (col j). (Entonces Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) y A | Fila (A) : La fila (A) C o l ( A ) es un isomorfismo.A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Incidentalmente da una prueba de que Rango de fila = Rango de columna!]

(e) Aplicando (d), es un isomorfismoA|:Col(A)=Row(A)Col(A')=Row(A)

(f) Por (d) y (e): y A'A mapea la Fila (A) isomórficamente en la Fila (A).AA(Rn)=Row(A)


2
Puede incluir una fórmula en $ y $ para obtener . LATEX
Placidia

2

Aunque ya se ha discutido que ATA tiene el significado de tomar productos de puntos, solo agregaría una representación gráfica de esta multiplicación.

De hecho, mientras que las filas de la matriz AT (y las columnas de la matriz A ) representan variables, tratamos las mediciones de cada variable como un vector multidimensional. Multiplicar la fila rowp de AT con la columna colp de A es equivalente a tomar el producto escalar de dos vectores: dot(rowp,colp) - el resultado es la entrada en la posición (p,p)dentro de la matriz ATA .

Del mismo modo, multiplicar la fila p de AT con la columna k de A es equivalente al producto escalar: dot(rowp,colk) , con el resultado en la posición (p,k) .

La entrada (p,k) de la matriz resultante ATA tiene el significado de cuánto está el vector rowp en la dirección del vector colk . Si el producto escalar de dos vectores rowi y colj es distinto de cero, cierta información sobre un vector rowi es transportada por un vector colj, y viceversa.

Esta idea juega un papel importante en el Análisis de Componentes Principales, donde queremos encontrar una nueva representación de nuestra matriz de datos inicial A tal forma que no haya más información sobre ninguna columna i en ninguna otra columna ji . Al estudiar PCA más profundamente, verá que se calcula una "nueva versión" de la matriz de covarianza y se convierte en una matriz diagonal que dejo que se dé cuenta de que ... de hecho, significa lo que expresé en la oración anterior.

ingrese la descripción de la imagen aquí


1

xE[x2]AATA

xxi

a=[x1x2xn]

x

x2¯=aan
ATA

σ2=E[x2]ATAATA

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.