¿Cómo tomar derivado de densidad normal multivariante?

Digamos que tengo una densidad normal multivariada . Quiero obtener la segunda derivada (parcial) wrt . No estoy seguro de cómo tomar derivada de una matriz. $N(\mu, \Sigma)$ $\mu$

Wiki dice que tome el elemento derivado por elemento dentro de la matriz.

Estoy trabajando con la aproximación de Laplace El modo es .

Iniciar sesión {PAGS}_{norte} (θ) = Iniciar sesión {PAGS}_{norte} - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ}) .

$\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.$

\hat{θ} = μ

$\hat\theta=\mu$

Me dieron ¿cómo sucedió esto?

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} Iniciar sesión pags (\hat{θ} El | y),

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),$

Lo que he hecho:

Iniciar sesión PAGS (θ El | y) = - \frac{k}{2} Iniciar sesión 2 π - \frac{1}{2} Iniciar sesión El | Σ El | - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ})

$\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta)$

Entonces, tomo la derivada wrt para , en primer lugar, hay una transposición, en segundo lugar, es una matriz. Entonces, estoy atascado. $\theta$

Nota: Si mi profesor se encuentra con esto, me estoy refiriendo a la conferencia.

self-study normal-distribution matrix

— usuario1061210
fuente

parte de su problema puede ser que su expresión para la probabilidad de registro tenga un error: usted tienedonde deberías tener

. Además, por casualidad quisiste decir

| Σ |

$|\Sigma|$

\log (| Σ |)

$\log(|\Sigma|)$

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y)

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y)$

— Macro

Sí, tienes razón, lo siento. ¿Por qué hay un signo negativo frente a la derivada parcial?

— user1061210

Solo estaba aclarando sobre el signo negativo porque, la segunda derivada negativa es la información de pesca observada, que generalmente es de interés. Además, según mis propios cálculos, descubro que

\frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y) = - Σ^{- 1}

$\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y) = -\Sigma^{-1}$

— Macro

Entonces, ¿cuál es el procedimiento general para la función discreta / continua? Tomar registro, escribir en forma de expansión Taylor, diferenciar dos veces wrt . La información de Fisher no es generalmente cierta en la mayoría de las otras densidades, ¿verdad?

θ

$\theta$

— user1061210

@user Como señalé, la segunda derivada del logaritmo debe tener valores propios no positivos. Sí, hay vínculos entre las variaciones y las derivadas secundarias negativas, como revela la teoría de la estimación de máxima verosimilitud, la información de Fisher, etc. - Macro se ha referido a eso anteriormente en estos comentarios.

— Whuber

Respuestas:

En el capítulo 2 del Matrix Cookbook hay una buena revisión del material de cálculo matricial que brinda muchas identidades útiles que ayudan con los problemas que uno encontraría al hacer la probabilidad y las estadísticas, incluidas las reglas para ayudar a diferenciar la probabilidad gaussiana multivariada.

Si tiene un vector aleatorio que es multivariante normal con el vector medio y la matriz de covarianza , use la ecuación (86) en el libro de cocina de la matriz para encontrar que el gradiente de la probabilidad de registro con respecto a es ${\boldsymbol y}$ ${\boldsymbol \mu}$ ${\boldsymbol \Sigma}$ ${\bf L}$ ${\boldsymbol \mu}$

\begin{aligned} \frac{\partial L}{\partial μ} & = - \frac{1}{2} (\frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial μ}) \\ = - \frac{1}{2} (- 2 Σ^{- 1} (y - μ)) \\ = Σ^{- 1} (y - μ) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \mu}} &= -\frac{1}{2} \left( \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) }{\partial {\boldsymbol \mu}} \right) \nonumber \\ &= -\frac{1}{2} \left( -2 {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) \right) \nonumber \\ &= {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \end{align}$

Dejaré que usted diferencie esto nuevamente y encuentre la respuesta como . $-{\boldsymbol \Sigma}^{-1}$

Como "crédito adicional", use las ecuaciones (57) y (61) para encontrar que el gradiente con respecto a es ${\boldsymbol \Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (\frac{\partial Iniciar sesión (El | Σ El |)}{\partial Σ} + \frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial Σ}) \\ = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( \frac{ \partial \log(|{\boldsymbol \Sigma}|)}{\partial{\boldsymbol \Sigma}} + \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu}\right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y}- {\boldsymbol \mu}\right) }{\partial {\boldsymbol \Sigma}} \right)\\ &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) \end{align}$

He omitido muchos de los pasos, pero hice esta derivación utilizando solo las identidades que se encuentran en el libro de cocina de la matriz, por lo que te lo dejaré a ti para completar los vacíos.

He usado estas ecuaciones de puntuación para la estimación de máxima verosimilitud, así que sé que son correctas :)

— Macro
fuente

Gran referencia: lo recomendaría yo mismo. No es una buena referencia pedagógica para alguien que no sabe álgebra de matrices sin embargo. El verdadero reto viene del hecho que se resuelve . Un verdadero dolor.

Σ

$\Sigma$

— probabilityislogic

Otra buena fuente sobre cálculo matricial es Magnus & Neudecker, amazon.com/…

— StasK

El número de referencia de la ecuación ha cambiado (quizás debido a una nueva edición). La nueva ecuación de referencia es 86.

— goelakash

Podría estar fuera de lugar aquí, pero no creo que esta fórmula sea correcta. He estado usando esto con ejemplos reales y mirando sus diferencias finitas. Parece que la fórmula para da los valores correctos para las entradas diagonales. Sin embargo, las entradas fuera de la diagonal son la mitad de lo que deberían ser.

\frac{\partial L}{\partial Σ}

$\frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}}$

— jjet

Debe asegurarse de cuidar adecuadamente los elementos repetidos en , de lo contrario, sus derivados serán incorrectos. Por ejemplo, (141) el Matrix Cookbook proporciona para un simétrico las siguientes derivadas $\mathbf{\Sigma}$ $\mathbf{\Sigma}$

\begin{aligned} \frac{\partial Iniciar sesión El | Σ El |}{\partial Σ} & = 2 Σ^{- 1} - (Σ^{- 1} \circ yo) \end{aligned}

$\begin{align} \frac{\partial \log|\mathbf{\Sigma}|}{\partial \mathbf{\Sigma}}&=2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) \end{align}$

Y (14) de la diferenciación de las funciones de las matrices de covarianza da

\begin{aligned} \frac{\partial rastro (Σ^{- 1} X X^{⊤})}{\partial Σ} & = - 2 Σ^{- 1} X X^{⊤} Σ^{- 1} + (Σ^{- 1} X X^{⊤} Σ^{- 1} \circ yo) \end{aligned}

$\begin{align} \frac{\partial \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)}{\partial \mathbf{\Sigma}}&=-2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I) \end{align}$

donde denota el producto Hadmard y por conveniencia hemos definido . $\circ$ $\mathbf{x}:=\mathbf{y}-\mathbf{\mu}$

Tenga en cuenta en particular que esto no es lo mismo que cuando no se impone la simétrica de . Como resultado tenemos eso $\mathbf{\Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{\partial}{\partial Σ} \frac{1}{2} (re Iniciar sesión El | 2 π El | + Iniciar sesión El | Σ El | + X^{⊤} Σ^{- 1} X)) \\ = - \frac{\partial}{\partial Σ} \frac{1}{2} (Iniciar sesión El | Σ El | + rastro (Σ^{- 1} X X^{⊤})) \\ = - \frac{1}{2} (2 Σ^{- 1} - (Σ^{- 1} \circ yo) - 2 Σ^{- 1} X X^{⊤} Σ^{- 1} + (Σ^{- 1} X X^{⊤} Σ^{- 1} \circ yo)) \end{aligned}

$\begin{align} \frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}&=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left(D\log|2\pi|+ \log|\mathbf{\Sigma}| + \mathbf{x}^{\top}\mathbf{\Sigma}^{-1}\mathbf{x})\right)\\ &=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left( \log|\mathbf{\Sigma}| + \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)\right)\\ &=-\frac{1}{2}\left( 2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) -2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I)\right) \end{align}$

donde denota la dimensión de , y y la derivada dees 0 $D$ $\mathbf{x}$ $\mathbf{y}$ $\mathbf{\mu}$ $D\log|2\pi|$

Esto garantiza que el elemento de corresponde a . $i,j^{th}$ $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}$ $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}_{ij}}$

— Lawrence Middleton
fuente

Traté de verificar computacionalmente la respuesta de @ Macro pero encontré lo que parece ser un error menor en la solución de covarianza. Obtuvo Sin embargo, parece que la solución correcta es en realidad El siguiente script R proporciona un ejemplo simple en el que se calcula la diferencia finita para cada elemento de . Demuestra que

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) = UNA \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) ={\bf A} \end{align}$

si = 2 UNA - diag (UNA)

${\bf B}=2{\bf A} - \text{diag}({\bf A})$

Σ

${\boldsymbol \Sigma}$

A

${\bf A}$ proporciona la respuesta correcta solo para elementos diagonales, mientras que es correcta para cada entrada.

B

${\bf B}$

library(mvtnorm)

set.seed(1)

# Generate some parameters
p <- 4
mu <- rnorm(p)
Sigma <- rWishart(1, p, diag(p))[, , 1]

# Generate an observation from the distribution as a reference point
x <- rmvnorm(1, mu, Sigma)[1, ]

# Calculate the density at x
f <- dmvnorm(x, mu, Sigma)

# Choose a sufficiently small step-size
h <- .00001

# Calculate the density at x at each shifted Sigma_ij
f.shift <- matrix(NA, p, p)
for(i in 1:p) {
  for(j in 1:p) {
    zero.one.mat <- matrix(0, p, p)
    zero.one.mat[i, j] <- 1
    zero.one.mat[j, i] <- 1

    Sigma.shift <- Sigma + h * zero.one.mat
    f.shift[i, j] <- dmvnorm(x, mu, Sigma.shift)
  }
}

# Caluclate the finite difference at each shifted Sigma_ij
fin.diff <- (f.shift - f) / h

# Calculate the solution proposed by @Macro and the true solution
A <- -1/2 * (solve(Sigma) - solve(Sigma) %*% (x - mu) %*% t(x - mu) %*% solve(Sigma))
B <- 2 * A - diag(diag(A))

# Verify that the true solution is approximately equal to the finite difference
fin.diff
A * f
B * f

— jjet
fuente

Gracias por tu comentario. Creo que interpretas la notación de manera diferente a la de todos los demás, porque al mismo tiempo cambias pares de elementos coincidentes fuera de la diagonal de , duplicando así el efecto del cambio. En efecto, está calculando un múltiplo de una derivada direccional. Parece haber un pequeño problema con la solución de Macro en la medida en que se debe tomar una transposición , pero eso no cambiaría nada en la aplicación a las matrices simétricas.

Σ

$\Sigma$

— whuber