Estimadores de máxima verosimilitud - Gaussiano multivariante


20

Contexto

El gaussiano multivariante aparece con frecuencia en Machine Learning y los siguientes resultados se utilizan en muchos libros y cursos de ML sin las derivaciones.

Datos dados en forma de una matriz de dimensiones , si suponemos que los datos siguen una distribución gaussiana de -variable con parámetros media ( ) y matriz de covarianza ( ) los estimadores de máxima verosimilitud están dados por:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Entiendo que el conocimiento del gaussiano multivariado es un requisito previo para muchos cursos de aprendizaje automático, pero sería útil tener la derivación completa en una respuesta autónoma de una vez por todas, ya que siento que muchos autoaprendices rebotan en las estadísticas. sitios web stackexchange y math.stackexchange en busca de respuestas.


Pregunta

¿Cuál es la derivación completa de los estimadores de máxima verosimilitud para el gaussiano multivariante


Ejemplos:

Estas notas de la conferencia (página 11) sobre Análisis discriminante lineal, o estas hacen uso de los resultados y asumen conocimientos previos.

También hay algunas publicaciones que están parcialmente respondidas o cerradas:

Respuestas:


24

Derivar los estimadores de máxima verosimilitud

Supongamos que tenemos vectores aleatorios, cada uno de tamaño : donde cada vector aleatorio puede ser interpretado como una observación (punto de datos) a través de variables. Si cada son iid como vectores gaussianos multivariados:p X ( 1 ) , X ( 2 ) , . . . , X ( mmp p X ( i )X(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Donde los parámetros son desconocidos. Para obtener su estimación, podemos usar el método de máxima verosimilitud y maximizar la función log verosimilitud.μ,Σ

Tenga en cuenta que, por la independencia de los vectores aleatorios, la densidad conjunta de los datos es el producto de las densidades individuales , es decir . Tomar el logaritmo da la función de log-verosimilitudm i = 1 f X ( i ) ({X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

Derivandoμ^

Para tomar la derivada con respecto a y equiparar a cero, haremos uso de la siguiente identidad de cálculo de matriz:μ

wAAwTAww=2Aw si no depende de y es simétrico.wAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Que a menudo se llama el vector medio de la muestra .

DerivandoΣ^

Derivar el MLE para la matriz de covarianza requiere más trabajo y el uso de las siguientes propiedades de álgebra lineal y cálculo:

  • La traza es invariante en permutaciones cíclicas de productos de matriz:tr[ACB]=tr[CAB]=tr[BCA]
  • Como es escalar, podemos tomar su rastro y obtener el mismo valor:x t A x = t r [ x T A x ] = t r [ xxTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

La combinación de estas propiedades nos permite calcular

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Cuál es el producto externo del vector consigo mismo.x

Ahora podemos reescribir la función log-verosimilitud y calcular la derivada wrt (nota es constante)Σ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Igualando a cero y resolviendo paraΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Fuentes


¡Pruebas alternativas, formas más compactas o interpretación intuitiva son bienvenidas!
Xavier Bourret Sicotte

En la derivación de , ¿por qué necesita ser definitivo positivo? ¿Parece suficiente que sea ​​invertible? Para una matriz invertible , solo cuando ? Σ Σ A A x = 0 x = 0μΣΣAAx=0x=0
Tom Bennett

Para aclarar, es una matriz que puede tener componentes finitos diagonales y no diagonales que indican correlación entre vectores, ¿correcto? Si ese es el caso, ¿en qué sentido son independientes estos vectores? Además, ¿por qué la función de probabilidad conjunta es igual a la probabilidad? ¿No debería ser la densidad conjunta, , igual a la probabilidad multiplicada por la anterior, es decir, ? Σf ( x , y ) f ( x | y ) f ( y )m×mf(x,y)f(x|y)f(y)
Mathews24

1
@TomBennett, la matriz sigma es positiva definida por definición - ver stats.stackexchange.com/questions/52976/… para la prueba. La identidad del cálculo de la matriz requiere que la matriz sea simétrica, no positiva definida. Pero dado que las matrices definidas positivas siempre son simétricas, eso funciona
Xavier Bourret Sicotte

1
Sí, de hecho, la independencia entre las observaciones permite obtener la probabilidad, la redacción puede ser bastante clara, esta es la versión multivariada de la probabilidad. Lo anterior sigue siendo irrelevante independientemente
Xavier Bourret Sicotte

5

Una prueba alternativa para que toma la derivada con respecto a directamente:Σ^Σ

Continuando con la probabilidad de registro como se arriba: donde y hemos utilizado las propiedades cíclicas y lineales de . Para calcular , primero observamos que

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
por la cuarta propiedad anterior. Para tomar la derivada del segundo término necesitaremos la propiedad que (del libro de cocina Matrix , ecuación 63). Aplicando esto con obtenemos que porque tanto como son simétricos. Luego
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Establecer esto en 0 y reorganizar da Σ =
Σ^=1mSμ.

Este enfoque es más trabajo que el estándar que utiliza derivados con respecto a , y requiere una identidad de rastreo más complicada. Solo lo encontré útil porque actualmente necesito tomar derivados de una función de probabilidad modificada para la que parece mucho más difícil usar que .Λ=Σ1/Σ1/Σ

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.