Durante mucho tiempo me he preguntado sobre la creencia aparentemente común de que existe una diferencia fundamental en los efectos fijos y aleatorios para los modelos de efectos mixtos (generalmente no lineales). Esta creencia es, por ejemplo, declarada por Bates en la siguiente respuesta
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Bates afirma claramente que cree que existe una diferencia fundamental entre los efectos fijos y aleatorios para que no puedan combinarse. Creo que está equivocado y espero convencer a algunos lectores de un punto de vista alternativo. Tomo un enfoque frecuentista, así que lo que quiero hacer es definir una noción de probabilidad de perfil para una función de los efectos fijos y aleatorios. Para motivar la discusión, supongamos que tenemos un modelo de dos parámetros con los parámetros x y u (nada sobre efectos aleatorios hasta ahora). Sea
la función de probabilidad donde suprimimos cualquier referencia a los datos. Supongamos que sea cualquier función (agradable) de x y u. La probabilidad de perfil
para la función viene dada porg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g
Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)
Creo que nadie discutiría con esto. Ahora supongamos que tenemos una distribución de probabilidad previa para u. Entonces afirmaría que la probabilidad de perfil para todavía tiene sentido, pero deberíamos modificar (1) incluyendo el anterior.p(u)g
Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Tenga en cuenta que dado que es un parámetro con a prior es exactamente lo mismo que se conoce como efecto aleatorio. Entonces, ¿por qué mucha gente piensa que los parámetros de efectos aleatorios son de alguna manera diferentes? Creo que la diferencia proviene de la práctica habitual de estimación de parámetros para ellos. Lo que hace que los efectos aleatorios sean `` diferentes '' es que hay muchos de ellos en muchos modelos. Como resultado, para obtener estimaciones útiles para los efectos fijos (u otros parámetros), es necesario tratar los efectos aleatorios de una manera diferente. Lo que hacemos es integrarlos fuera del modelo. En el modelo anterior formaríamos la probabilidad donde
Ahora el
uF(x)F(x)=∫L(x,u)p(u)du
use fueron. Entonces, si todo lo que tenemos es , parece que no tiene sentido hablar sobre la probabilidad de perfil para alguna función .
F(x)g(x,u)
Por lo tanto, para obtener información sobre la función no debemos integrar el parámetro . Pero lo que sucede en el caso donde hay muchos parámetros de efectos aleatorios. Luego afirmo que deberíamos integrarnos sobre `` la mayoría '', pero no todos, en un sentido que voy a precisar. Para motivar la construcción, deje que haya efectos aleatorios
. Considere el caso especial donde la función solo depende de , y de hecho es la función más simple imaginable, . Integre sobre los efectos aleatorios para obtener
g(x,u)unu=(u1,u2,...,un−1,un)g(x,u)ung(x,u)=unu1,u2,...,un−1
F(x,un)=∫L(x,u1,...,un)p(u1,...,un))du1du2...dun−1\eqno(4)
como antes podemos formar el perfil de probabilidad
Cómo generalizar para que tenga sentido para una función arbitraria . en cuenta que la definición de en
es la misma que
Para ver esta nota que para el caso simple ,
es lo mismo que
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)
Para una función general formamos la función
definida por y calculamos la probabilidad de perfil
g(x,u)F(x,s)(5)
Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)
La probabilidad de este perfil es un concepto bien definido y se sostiene por sí mismo. Sin embargo, para ser útil en la práctica, uno debe poder calcular su valor, al menos aproximadamente. Creo que para muchos modelos la función se puede aproximar suficientemente bien usando una variante de la aproximación de Laplace. Defina por
Sea H el hessian del logaritmo de la función con respecto a los parámetros y .F(x,s)x^(s),u^(s)
x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
−L(x,u)p(u)xu
Los conjuntos de niveles de son submanifolds dimensionales de un espacio dimensional donde hay efectos fijos y efectos aleatorios. Necesitamos integrar una forma
sobre este múltiple donde todo está linealizado en
Esto implica un poco de geometría diferencial elemental. Suponga que
Al volver a parametrizar podemos suponer que y . Entonces considera el mapa
gm+n−1n+mmnndu1∧du2∧…∧dunx^(s),u^(s)gxn(x^(s),u^(s))≠0x^(s)=0u^(s)=0
(x1,x2,…,xm−1,u1,u2,…,un)→(x1,x2,…,xm−1,−∑m−1i=1gxixi−∑ni=1guiuigxm,u1,u2,…,un)
donde se utiliza para denota la derivada parcial de con respecto a
evaluada en el punto máximo. Este es un mapa lineal del espacio dimensional en el espacio tangente del conjunto de niveles de . Podemos usarlo para calcular la integral deseada. Primero, el retroceso de las formas 1 son simplemente ellos mismos.
gxigxim+n−1gdui
El retroceso del hessiano es la forma cuadrática
Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n
Por lo tanto, la integral se puede calcular (o aproximar) mediante la aproximación de Laplace, que es la fórmula habitual que implica el logaritmo del determinante de , que se calcula mediante la descomposición de Cholesky. El valor de la aproximación de Laplace de la integral es
dondeEs el determinante. todavía tenemos que tratar con el ancho del conjunto de niveles de como
Para ordenar primero esto tiene el valor
donde es el vector de derivadas parciales de
T
L(x^(s),u^(s))|−T|12
|⋅|gϵ→0ϵ/∥∇g(x^(s),u^(s))∥∇g(x^(s),u^(s)))g (gx1,gx2,…,gxm,gu1,gu2,…,gun)
para que el valor de probabilidad en el conjunto de nivel de se da por
Esta es la aproximación correcta para usar para calcular la probabilidad de perfil.
gL(x^(s),u^(s))|−T|12∥∇g(x^(s),u^(s))∥