La forma cerrada no existe para T, pero un enfoque muy intuitivo y estable es a través del algoritmo EM. Ahora, dado que el alumno es una mezcla a escala de normales, puede escribir su modelo como
yyo=μ+ei
donde y w i ∼ G a ( νei|σ,wi∼N(0,σ2w−1i). Esto significa que condicionalmente enwithe mle son solo la media ponderada y la desviación estándar. Este es el paso "M"wi∼Ga(ν2,ν2)wi
sigma 2=Σiwi(yi - μ )2
μ^=∑iwiyi∑iwi
σ^2= ∑yowyo( yyo- μ^)2norte
Ahora el paso "E" reemplaza con su expectativa dada toda la información. Esto se da como:wyo
w^yo= ( ν+ 1 ) σ2νσ2+ ( yyo- μ )2
así que simplemente repite los dos pasos anteriores, reemplazando el "lado derecho" de cada ecuación con las estimaciones de los parámetros actuales.
Esto muestra muy fácilmente las propiedades de robustez de la distribución t, ya que las observaciones con grandes residuos reciben menos peso en el cálculo de la ubicación , y la influencia limitada en el cálculo de σ 2 . Por "influencia acotada" quiero decir que la contribución a la estimación para σ 2 de la i-ésima observación no puede exceder un umbral dado (esto es ( ν + 1 ) σ 2 o l d en el algoritmo EM). También ν es un parámetro de "robustez" en el sentido de que aumentar (disminuir) ν dará como resultado más (menos) pesos uniformes y, por lo tanto, más (menos) sensibilidad a los valores atípicos.μσ2σ2( ν+ 1 ) σ2o l dνν
Una cosa a tener en cuenta es que la función de probabilidad de registro puede tener más de un punto estacionario, por lo que el algoritmo EM puede converger a un modo local en lugar de un modo global. Es probable que los modos locales se encuentren cuando el parámetro de ubicación se inicia demasiado cerca de un valor atípico. Entonces, comenzar en la mediana es una buena manera de evitar esto.