Esta nota depende de los resultados contenidos en los Modelos lineales de Moser: un enfoque de modelo medio . Citaré algunos resultados de este libro en lo que sigue. Cuando vi tu pregunta, comencé a leer el libro: esta nota es la forma en que mis pensamientos se organizaron después.
Dejar y∼Nn(μ,Σ) ser la respuesta, con μ que contiene los efectos fijos y Σ que contiene los efectos aleatorios
Tomar yTAiyser las sumas de cuadrados correspondientes a cada término (covariables e interacciones) en el modelo. Tenga en cuenta que estas sumas de cuadrados son invariables para determinar si los términos son fijos o aleatorios. Suponga que cadaAi es simétrico e idempotente, lo cual será cierto en la mayoría de los modelos de interés.
Cuando sostiene que
I=∑iAi,
lo que equivale a las sumas de cuadrados correspondientes a una descomposición en subespacios ortogonales ya que hemos asumido el
Ai son proyectores, y
Σ=∑iciAi,
por el teorema de Cochran (lema 3.4.1),
yTAiy∼ciχ2di(μTAiμ/ci),
para
di=tr(Ai)y
yTAjy es independiente de
yTAky para
j≠k.
El termino
F~=yTAjy/djyTAky/dk∼cjχ2dj(μTAjμ/cj)/djckχ2dk(μTAkμ/ck)/dk
es de hecho un (central)
F estadística si y solo si
cjckμTAjμμTAkμ=1,=0,=0, and (1)(2)(3)
Cuando se satisfacen estas tres condiciones, podemos calcular
p-valores correspondientes a la estadística
F~. Estos términos básicamente solo ayudan en la computabilidad ya que
cidependen de los componentes de varianza y los parámetros de no centralidad dependen de la media
μ. La segunda condición asegura que
F~ tendrá (al menos) un no central
Fdistribución. Bajo la segunda condición, la tercera condición da que
F~ tiene una central
F distribución.
Los cuadrados medios esperados (EMS) correspondiente a la ith suma de cuadrados yTAiy es
EMSi:=1tr(Ai)E[yTAiy]=tr(AiΣ)+μTAiμtr(Ai)=ci+μTAiμtr(Ai),
dónde
tr(AiΣ)=citr(Ai)debido a cor 3.1.2. El radio
EMSjEMSk=cj+μTAjμtr(Aj)ck+μTAkμtr(Ak)=1
si las condiciones
(1),
(2)y
(3)sostener. Es por eso que las personas inspeccionan la proporción de
EMS al determinar qué sumas de cuadrados dividir para formar un
F estadística para probar una hipótesis nula particular.
Usamos condiciones (1),(2)y (3)para especificar la hipótesis nula. En mi experiencia, cuando el término (correspondiente aj) que estamos interesados en probar es aleatorio, hacemos que la hipótesis nula sea cj/ck=1, y, cuando está arreglado, hacemos que la hipótesis nula sea yTAjy=0. En particular, estos nos permiten elegirk para que el resto de condiciones (1),(2) y (3)estan satisfechos. Tal elección dekno siempre es posible, lo que lleva a dificultades parecidas a Behrens-Fisher .
Esto no explica nada particularmente relacionado con el problema en cuestión, pero eso solo equivale a la informática μ y Σ. Espero que esto se vea como una forma útil de pensar sobre el problema. Tenga en cuenta que el ejemplo 4.4.1 calcula cuáles son todas las cantidades anteriores en el ejemplo ANOVA de dos vías.
La diferencia se debe a la estructura del problema y no a la convención. Estos diferentes enfoques (dos vías versus medida repetida) cambianμ y Σ, que cambia el EMS, que cambia qué k Elegimos construir la prueba.
Consideremos el modelo
yijk=μ0+idi+Xw1j+id∗Xw1ij+R(id∗Xw1)k(ij),
dónde
i denota el nivel de
id, etc. Aquí
k denota cuál de las 3 réplicas se está considerando.
Ahora presentamos alguna notación vectorial útil: escribir y=(y111,y112,y113,y121,…y20,3,3). Dado que estos datos están equilibrados, podemos hacernos una notación de producto kronecker . (Como comentario, me dijeron que Charlie Van Loan una vez llamó al producto kronecker "¡la operación de los años 2000!") DefinirJ¯∈Rm×m ser la matriz con todas las entradas iguales a 1m y C=I−J¯ser la matriz de centrado (La matriz de centrado se llama así porque, por ejemplo,∥Cx∥22=∑i(xi−x¯)2 para un vector x.)
Con esta notación de producto kronecker debajo del cinturón, podemos encontrar las matrices Aimencionado anteriormente. La suma de los cuadrados correspondientes aμ0 es
SS(μ0)=n(y¯⋅⋅⋅)2=∥(J¯⊗J¯⊗J¯)y∥22=yT(J¯⊗J¯⊗J¯)y,
donde el primer componente
J¯∈R20×20, el segundo está en
R3×3y el tercero está en
R3×3. En términos generales, las matrices en esos componentes siempre serán de ese tamaño. Además, la suma de cuadrados debido a
id es
SS(id)=∑ijk(y¯i⋅⋅−y¯⋅⋅⋅)2=∥(C⊗J¯⊗J¯)y∥22=yT(C⊗J¯⊗J¯)y.
Darse cuenta de
SS(id) de hecho mide la variación entre niveles de
id. Del mismo modo, las otras matrices son
AXw1=J¯⊗C⊗J¯,
Aid∗Xw1=C⊗C⊗J¯y
AR()=I⊗I⊗C.
Se demuestra que esto es consistente con aov
ejecutar código para dar, por ejemplo, la suma residual de cuadradosSS(R(id∗Xw1))=yTAR()y:
mY <- c()
for(j in 1:(nrow(d)/3)) {
mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares
En este punto, tenemos que tomar algunas decisiones de modelado. En particular, tenemos que decidir siidEs un efecto aleatorio. Supongamos primero que no es un efecto aleatorio, por lo que todos los efectos además de la replicación son fijos. Entonces
E[yijk]=μij=μ0+idi+Xw1jk+id∗Xw1ij
y
R(id∗Xw1)k(ij)∼iidN(0,σ2). Tenga en cuenta que no hay dependencia entre observaciones distintas. En notación vectorial, podemos escribir
y∼N(μ,Σ)
para
μ=E[y]=(μ11,μ12,…,μ20,3)⊗13 y
Σ=σ2(I⊗I⊗I).
Notando que la suma de todos 5 del ALo definido anteriormente es la identidad, sabemos por el teorema de Cochran que, entre otras cosas,
SS(Xw1)=yTAXw1y∼σ2χ2(19)(1)(1)(μTAXw1μ/σ2)
y
SS(R(id∗Xw1))=yTAR()y∼σ2χ2(20)(3)(2)(μTAR()μ/σ2)
y estas sumas de cuadrados son independientes.
Ahora, en línea con lo que discutimos anteriormente, queremos condiciones (1),(2), y (3)sostener. Note esa condición(1) se mantiene (porque no hay otros componentes de varianza para complicar las cosas). Lo que es realmente genial notar ahora es que μTAR()μ=0, ya que μ es constante a lo largo de este tercer "componente" que está siendo centrado por AR(). Esto significa que(3)está detrás de nosotros Por lo tanto, solo tenemos que preocuparnos por la condición(2): si lo asumimos (como una hipótesis nula) entonces estamos asumiendo que 0=μTAXw1μ=∑ijk(μij−μ¯i⋅)2, que es lo mismo que μij=μ¯i⋅ para todos i,j, que es lo mismo que Xw1j=0 y id∗Xw1ij=0 para todos i,j (ya que el nivel medio está en los otros términos).
En resumen, se puede ver que la hipótesis nula solo prueba si un parámetro de no centralidad es cero, lo que es equivalente a los efectos sobre la covariable como cero. El caso de medidas repetidas sigue una línea de razonamiento similar, donde en su lugar hacemos la elección de modelado que elidEl efecto es aleatorio. Allí, condición(1) se convertirá en la hipótesis nula.
En relación con el R
comando, como mencionas en los comentarios de la publicación original, este término de error solo especifica qué términos se deben considerar como efectos aleatorios. (Tenga en cuenta que todos los términos que se incluirán en el modelo deben ser simplemente ingresados o ingresados dentro del Error()
término. Es por eso que hay una diferencia entre id/Xw1 = id + id:Xw1
y id
estar en el Error
término. Los términos no incluidos se agrupan con el error en el sentido de queAR()+Aid∗Xw1 se vuelve a etiquetar como AR().)
Aquí están los detalles explícitos relacionados con el caso de medidas repetidas donde los términos relacionados con id (que son id y id∗Xw1) son al azar. Veremos que este es el caso más interesante.
Allí tenemos la misma suma de matrices de cuadrados (ya que no dependen de si un factor es fijo o aleatorio). La matriz de covarianza que hay
Σ=(a)σ2id(I⊗J⊗J)+σ2id∗Xw1(I⊗C⊗J)+σ2R()(I⊗I⊗I)=σ2id(3)(3)(Aμ0+Aid)+σ2id∗Xw1(3)(AXw1+Aid∗Xw1)+σ2R()(Aμ0+Aid+AXw1+Aid∗Xw1+AR())=((3)(3)σ2id+σ2R())Aμ0+((3)(3)σ2id+σ2R())Aid+((3)σ2id∗Xw1+σ2R())AXw1+((3)σ2id∗Xw1+σ2R())Aid∗Xw1+σ2R()AR(),
dónde
JEs la matriz de todos. El primer y último sumando en el lado derecho de la igualdad (a) ofrecen explicaciones intuitivas: el primer sumando muestra que hay una fuente adicional de correlación entre las observaciones con el mismo
id, y el tercer summand muestra, como en el ejemplo de dos vías, la fuente base de variación. Este segundo sumando es menos intuitivo, pero entre las observaciones con el mismo \ mathrm {id}, puede verse como una variación creciente entre observaciones con el mismo
Xw1 mientras disminuye la variación entre observaciones con diferentes
Xw1, debido a la forma de
I⊗C⊗J.
Además, dado que todos los términos relacionados con id son aleatorios, la media se debe solo a Xw1, así que eso E[yijk]=μj=μ0+Xw1jo μ=1⊗(μ1,μ2,μ3)⊗1.
Tenga en cuenta que, relacionado con la condición (1): tenemos
cXw1cid∗Xw1=(3)σ2id∗Xw1+σ2R()(3)σ2id∗Xw1+σ2R()=1,
while
cXw1cR()=(3)σ2id∗Xw1+σ2R()σ2R()≠1.
Further, related to condition
(3) both
μTAXw1∗idμ=0 and
μTAR()μ=0. Also, related to condition
(2): we see that
μTAXw1μ=∥AXw1μ∥22=∥(J¯⊗C⊗J¯)(1⊗(μ1,μ2μ3)′⊗1)∥22=(20)(3)∥C(μ1,μ2μ3)′∥22=(20)(3)∑j(Xw1j)2.
Therefore, if the denominator sum of squares was the residual R(id∗Xw1) like before, there would be both conditions (1) and (2) in the null hypothesis---since those are the two conditions that aren't satisfied without assumptions. However, if we were to use denominator sum of squares as the interaction, since condition (1) is already satisfied, the null hypothesis would just be condition (2). So, as you mention in your question, these different denominators just amount to different null hypotheses.
This analysis technique we use allows the choice of which null hypothesis is being tested to be transparent. Indeed, we can see this by writing out the conditions mentioned in the previous paragraph more explicitly. Using the denominator as the residual sum of squares forces us to test Xw1j=0 for all j and σ2id∗Xw1=0, while using the denominator as the interaction sum of squares allows us to simply test Xw1j=0 for all j.