Derivar los estimadores de máxima verosimilitud
Supongamos que tenemos vectores aleatorios, cada uno de tamaño : donde cada vector aleatorio puede ser interpretado como una observación (punto de datos) a través de variables. Si cada son iid como vectores gaussianos multivariados:p X ( 1 ) , X ( 2 ) , . . . , X ( mmp p X ( i )X(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Donde los parámetros son desconocidos. Para obtener su estimación, podemos usar el método de máxima verosimilitud y maximizar la función log verosimilitud.μ,Σ
Tenga en cuenta que, por la independencia de los vectores aleatorios, la densidad conjunta de los datos es el producto de las densidades individuales , es decir . Tomar el logaritmo da la función de log-verosimilitud∏ m i = 1 f X ( i ) ({X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Derivandoμ^
Para tomar la derivada con respecto a y equiparar a cero, haremos uso de la siguiente identidad de cálculo de matriz:μ
wAA∂wTAw∂w=2Aw si
no depende de y es simétrico.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Que a menudo se llama el vector medio de la muestra .
DerivandoΣ^
Derivar el MLE para la matriz de covarianza requiere más trabajo y el uso de las siguientes propiedades de álgebra lineal y cálculo:
- La traza es invariante en permutaciones cíclicas de productos de matriz:tr[ACB]=tr[CAB]=tr[BCA]
- Como es escalar, podemos tomar su rastro y obtener el mismo valor:x t A x = t r [ x T A x ] = t r [ xxTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
La combinación de estas propiedades nos permite calcular
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Cuál es el producto externo del vector consigo mismo.x
Ahora podemos reescribir la función log-verosimilitud y calcular la derivada wrt (nota es constante)Σ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Igualando a cero y resolviendo paraΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Fuentes