Hay un abuso sutil pero fuerte de la notación que hace que muchos de los pasos sean confusos. Abordemos este problema volviendo a las definiciones de multiplicación de matriz, transposición, trazas y derivadas. Para aquellos que deseen omitir las explicaciones, salten a la última sección "Poner todo junto" para ver cuán breve y simple puede ser una demostración rigurosa.
Notación y conceptos
Dimensiones
Para que la expresión tenga sentido cuando A es una matriz m × n , B debe ser una matriz (cuadrada) n × n y C debe ser una matriz m × p , de donde el producto es una matriz m × p . Para tomar la traza (que es la suma de elementos diagonales, Tr ( X ) = ∑ i X i i ), luego p = m , haciendo CA B A′CUNAm × nsin × nCm × pm × pTr( X) = ∑yoXyo ip = mC Una matriz cuadrada.
Derivados
La notación " " parece referirse a la derivada de una expresión con respecto a A . Ordinariamente, la diferenciación es una operación realizada sobre las funciones f : R N → R M . La derivada en un punto x ∈ R N es una transformación lineal D f ( x ) : R N → R M . Al elegir las bases para estos espacios vectoriales, dicha transformación se puede representar como una matriz M × N. ¡Ese no es el caso aquí!∇UNAUNAF: Rnorte→RMETROx ∈RnorteDf( x ) :RN→RMETROM× N
Matrices como vectores
En cambio, se considera como un elemento de R m n : sus coeficientes se desenrollan (generalmente fila por fila o columna por columna) en un vector de longitud N = m n . La función f ( A ) = Tr ( A B A ′ C ) tiene valores reales, de donde M = 1 . En consecuencia, D f ( x ) debe ser una matriz 1 × m n : es un vector de fila que representa una forma lineal enUNARm nN= m nf( A ) =Tr( A B A′C)METRO= 1ref(x)1×mn . Sin embargo, los cálculos en la pregunta usan unaformadiferentede representar formas lineales: sus coeficientes se vuelven a enrollar enmatricesm×n.Rmnm×n
La traza como forma lineal
Sea una matriz constante m × n . Luego, por definición de la traza y de la multiplicación de matricesωm × n
Tr(Aω′)=∑i=1m(Aω′)ii=∑i=1m(∑j=1nAij(ω′)ji)=∑i,jωijAij
Esto expresa la combinación lineal más general posible de los coeficientes de : ω es una matriz de la misma forma que A y su coeficiente en la fila i y la columna j es el coeficiente de A i j en la combinación lineal. Como ω i j A i j = A i j ω i j , los roles de ω y A pueden cambiar, dando la expresión equivalenteAωAijAijωijAij=AijωijωA
∑i,jωijAij=Tr(Aω′)=Tr(ωA′).(1)
Mediante la identificación de una matriz constante con cualquiera de las funciones A → Tr ( A ω ' ) o A → Tr ( ω A ' ) , que puede representar formas lineales en el espacio de m × n matrices como m × n matrices. (¡No los confunda con derivadas de funciones de R n a R m !)ωA→Tr(Aω′)A→Tr(ωA′)m×nm×nRnRm
Calcular un derivado
La definición
Los derivados de muchas de las funciones matriciales que se encuentran en las estadísticas se calculan de manera más fácil y confiable a partir de la definición: realmente no es necesario recurrir a reglas complicadas de diferenciación matricial. Esta definición dice que es diferenciable en x si y solo si hay una transformación lineal L tal quefxL
f(x+h)−f(x)=Lh+o(|h|)
para arbitrariamente pequeños desplazamientos . Los medios de notación pequeñas-oh que el error cometido en la aproximación de la diferencia f ( x + h ) - f ( x ) por L h es arbitrariamente pequeño que el tamaño de h para suficientemente pequeño h . En particular, siempre podemos ignorar los errores que son proporcionales a | h | 2 .h∈RNf(x+h)−f(x)Lhhh|h|2
El cálculo
Apliquemos la definición a la función en cuestión. Multiplicar, expandir e ignorar el término con un producto de dos en él,h
f(A+h)−f(A)=Tr((A+h)B(A+h)′C)−Tr(ABA′C)=Tr(hBA′C)+Tr(ABh′C)+o(|h|).(2)
Para identificar la derivada , debemos obtener esto en la forma ( 1 ) . El primer término de la derecha es ya en esta forma, con ω = B A ' C . El otro término de la derecha tiene la forma Tr ( X h ' C ) para X = A B . Escribamos esto:L = D f( A )( 1 )ω = B A′CTr( Xh′C)X= A B
Tr( Xh′C) = ∑i = 1metro∑j = 1norte∑k = 1metroXyo jhk jCk i= ∑i , j , khk j( Ck iXyo j) =Tr( ( CX) h′) .(3)
Recordando , ( 2 ) puede reescribirseX= A B( 2 )
F( A + h ) - f( A ) = Tr( hB A′C) + Tr( CA Bh′) + o ( | h | ) .
Es en este sentido que podemos considerar que la derivada de en A es D f ( A ) = ( B A ′ C ) ′ + C A B = C ′ A B ′ + C A B , porque estas matrices juegan el roles de ω en las fórmulas de rastreo ( 1 ) .FUNA
D f( A ) = ( B A′C)′+ CA B = C′A B′+ CA B ,
ω( 1 )
Poniendolo todo junto
Aquí, entonces, hay una solución completa.
Sea una matriz m × n , B una matriz n × n y C una matriz m × m . Sea f ( A ) = Tr ( A B A ′ C ) . Sea h una matriz m × n con coeficientes arbitrariamente pequeños. Porque (por identidad ( 3 ) ) f ( A + h ) - f (UNAm × nsin × nCm × mF( A ) = Tr( A B A′C)hm × n( 3 ) fes diferenciable y su derivada es la forma lineal determinada por la matrizC′AB′+CAB.
F( A + h ) - f( A )= Tr( h B A′C) + Tr( A B h′C)+o(|h|)=Tr(h(C′AB′)′+(CAB)h′)+o(|h|),
fC′AB′+CAB.
Debido a que esto toma solo aproximadamente la mitad del trabajo e involucra solo las manipulaciones más básicas de matrices y trazas (multiplicación y transposición), debe considerarse una demostración más simple, y posiblemente más perspicaz, del resultado. Si realmente desea comprender los pasos individuales en la demostración original, puede resultarle fructífero compararlos con los cálculos que se muestran aquí.