ANOVA de medidas repetidas versus ANOVA factorial con factor de sujeto: comprensión de "estratos de error" y término Error () en aov


8

Considere medidas repetidas ANOVA (RM-ANOVA) con un factor dentro del sujeto Ay varias mediciones por sujeto para cada nivel de A.

Está estrechamente relacionado con ANOVA de dos vías con dos factores: Ay subject. Utilizan la descomposición idéntica de la suma de los cuadrados en cuatro partes: A, subject, A⋅subject, y residual. Sin embargo, ANOVA bidireccional prueba el efecto de A comparando SS de A con el SS residual, mientras que RM-ANOVA prueba el efecto de A comparando SS de A con Atema de interacción SS.

¿Por qué la diferencia?

  1. ¿Esta diferencia se deduce automáticamente de la estructura de medidas repetidas de los datos, o es una convención?
  2. ¿Esta diferencia entre ANOVA de dos vías y RM-ANOVA corresponde a probar dos valores nulos diferentes? Si es así, ¿qué son exactamente y por qué usaríamos nulos diferentes en estos dos casos?
  3. La prueba de ANOVA de dos vías se puede entender como una prueba F entre dos modelos anidados: el modelo completo y el modelo sin A. ¿Se puede entender RM-ANOVA de manera similar?

(Si solo hay una medición por sujeto para cada nivel de A, entonces la distinción desaparece porque el sujeto A y la variación residual no se pueden desenredar: ¿Las medidas repetidas unidireccionales ANOVA son equivalentes a un ANOVA bidireccional? )


Demostración

Usaré datos de juguetes d2generados en http://dwoll.de/rexrepos/posts/anovaMixed.html . La misma página web muestra la sintaxis correcta para RM-ANOVA.

# Discarding between-subject factors and leaving only one within-subject factor
d = d2[d2$Xb1=='CG' & d2$Xb2 == 'f', c(1,4,6)]

(Vea la versión reproducible aquí en pastebin .) Los datos se ven así:

     id Xw1     Y
1    s1   A  28.6
2    s1   A  96.6
3    s1   A  64.8
4    s1   B 107.5
5    s1   B  77.3
6    s1   B 120.9
7    s1   C 141.2
8    s1   C 124.1
9    s1   C  88.0
10   s2   A  86.7
...

Aquí hay ANOVA de dos vías: summary(aov(Y ~ Xw1*id, d))

             Df Sum Sq Mean Sq F value   Pr(>F)    
Xw1           2  95274   47637  16.789 3.73e-07 ***
id           19  31359    1650   0.582    0.913    
Xw1:id       38  71151    1872   0.660    0.929    
Residuals   120 340490    2837                 

Aquí está RM-ANOVA: summary(aov(Y ~ Xw1 + Error(id/Xw1), d))

Error: id
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 19  31359    1650               

Error: id:Xw1
          Df Sum Sq Mean Sq F value   Pr(>F)    
Xw1        2  95274   47637   25.44 9.73e-08 ***
Residuals 38  71151    1872                     

Error: Within
           Df Sum Sq Mean Sq F value Pr(>F)
Residuals 120 340490    2837            

Tenga en cuenta la descomposición SS idéntica, pero las pruebas ANOVA de dos vías Xw1contra el residual, mientras que las pruebas RM-ANOVA Xw1contra la Xw1:idinteracción.

¿Por qué?

Esta pregunta está relacionada con Cómo escribir el término de error en medidas repetidas ANOVA en R: Error (asunto) vs Error (asunto / tiempo) . Si intentamos usarlo en Error(id)lugar del Error(id/Xw1)ejemplo anterior, entonces Xw1se probará contra la Xw1:idinteracción agrupada junto con la variación residual.

(El mismo problema surge en RM-ANOVA factorial con múltiples factores dentro del sujeto, donde cada factor o interacción se prueba contra su propio "término de error", también conocido como "estrato de error". Estos estratos de error siempre están dados por la interacción correspondiente con el bloque / plot / sujeto variable id.)


Hilo relevante: r.789695.n4.nabble.com/AOV-and-Error-td865845.html , pero no hay una respuesta real allí.
ameba

Bien, releí el artículo de @ JakeWestfall jakewestfall.org/publications/JWK.pdf y me di cuenta de que todo el problema se reduce al subjectefecto de tratamiento de RM-ANOVA (y todas sus interacciones) como aleatorio, mientras que ANOVA de 2 vías lo trata como fijo. Tengo que pensar más al respecto para descubrir todos los detalles.
ameba

Para el punto (2), la hipótesis nula es exactamente lo que hace que la razón de los cuadrados medios esperados de las dos sumas de cuadrados correspondientes sea igual a uno y el parámetro de no centralidad correspondiente a ambas sumas de cuadrados sea igual a 0. Esto es para que el p valor para el FLa estadística es computable. Actualmente no tengo claro por qué podemos lograr estos 3 objetivos en los nulos que estamos acostumbrados a ver en ANOVA, pero parece que solo necesitamos enfocarnos en la relación del EMS cuando los efectos son aleatorios y el parámetro de no centralidad del numerador SS cuando el efecto (numerador) es fijo.
user795305

Estos comentarios se relacionan con el teorema de cochran ( en.wikipedia.org/wiki/Cochran%27s_theorem ). (El libro que uso como referencia de ANOVA llama a esto "Lema de Bhat", por cierto).
user795305

Pregunta similar aquí: Comprensión de la trama dividida , pero tampoco hay una respuesta excelente allí
Aaron dejó Stack Overflow el

Respuestas:


2

... ANOVA bidireccional prueba el efecto de A comparando SS de A con el SS residual, mientras que RM-ANOVA prueba el efecto de A comparando SS de A con la interacción de sujeto A⋅S.

1) ¿Se deduce automáticamente esta diferencia de la estructura de medidas repetidas de los datos, o es una convención?

Se sigue de la estructura de medidas repetidas de los datos. El principio básico del análisis de varianza es que comparamos la variación entre los niveles de un tratamiento con la variación entre las unidades que recibieron ese tratamiento. Lo que hace que el caso de la medida repetida sea algo complicado es estimar esta segunda variación.

En este caso más simple, lo que nos interesa son las diferencias entre los niveles de A. Entonces, ¿en cuántas unidades hemos medido esa diferencia? Es el número de sujetos, no el número de observaciones. Es decir, cada sujeto nos brinda información adicional independiente sobre la diferencia, no cada observación. Agregar más medidas repetidas aumenta la precisión de nuestra información sobre cada tema, pero no nos da más temas.

Lo que hace el RM-Anova cuando usa la interacción A - sujeto como término de error es usar correctamente la variación en las diferencias entre niveles de A entre sujetos como la variación para probar el efecto del nivel A. El uso del error de observación utiliza la variación en las medidas repetidas en cada individuo, lo cual no es correcto.

Considere un caso en el que toma más y más datos de solo un par de personas. Si usa el error de nivel de observación, eventualmente alcanzará significación estadística, aunque solo tenga un par de individuos. Necesita más individuos, no más datos sobre ellos, para aumentar realmente el poder.

2) ¿Esta diferencia entre ANOVA bidireccional y RM-ANOVA corresponde a probar dos valores nulos diferentes? Si es así, ¿qué son exactamente y por qué usaríamos nulos diferentes en estos dos casos?

No, la misma hipótesis nula. Lo que es diferente es cómo estimamos el estadístico de prueba y su distribución nula.

3) La prueba de ANOVA bidireccional se puede entender como una prueba F entre dos modelos anidados: el modelo completo y el modelo sin A. ¿Se puede entender RM-ANOVA de manera similar?

Sí, pero tal vez no de la manera que esperabas. Como puede ver en la salida de aov, una forma de pensar sobre este tipo de modelos es que en realidad son varios modelos en uno, con un modelo para cada nivel.

Uno puede ajustar los modelos para niveles más altos individualmente promediando los datos sobre los niveles más bajos. Es decir, una prueba RM-Anova para A es equivalente a una Anova estándar en los datos promediados. Entonces uno puede comparar modelos de la manera habitual.

> library(plyr)
> d2 <- ddply(d, ~Xw1 + id, summarize, Y=mean(Y))
> a1 <- aov(Y ~ id, d2)
> a2 <- aov(Y ~ Xw1+id, d2)
> anova(a1, a2)
Analysis of Variance Table

Model 1: Y ~ id
Model 2: Y ~ Xw1 + id
  Res.Df   RSS Df Sum of Sq      F    Pr(>F)    
1     40 55475                                  
2     38 23717  2     31758 25.442 9.734e-08 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Alternativamente, uno puede ajustar el total aovcon todos los datos pero sin el término de interés, y luego comparar el ajuste con el completo aovcon el término de interés, pero luego, para comparar modelos, debe elegir el nivel del modelo que ha cambiado (aquí el id:Xw1nivel) y luego puedes comparar esos dos modelos.

> summary(aov(Y ~ 1 + Error(id/Xw1), d))

Error: id
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 19  31359    1650               

Error: id:Xw1
          Df Sum Sq Mean Sq F value Pr(>F)
Residuals 40 166426    4161               

Error: Within
           Df Sum Sq Mean Sq F value Pr(>F)
Residuals 120 340490    2837               
> (F <- ((166426 - 71151)/2) / (71151/38))
[1] 25.44202
> pf(F, 2, 38, lower=FALSE)
[1] 9.732778e-08

(+1) ¡Gracias por tomarse el tiempo de escribir esto! Esta es una perspectiva interesante que nos permite tener una idea de por qué es natural comparar con la suma de cuadrados de interacción en el caso de medidas repetidas. Sin embargo, parece fallar en dilucidar los detalles de la prueba, ya que usted (de acuerdo con los argumentos en mi respuesta) afirma erróneamente que las hipótesis nulas son las mismas. El último párrafo de mi respuesta escribe lo que deduje que eran las hipótesis nulas. ¡Avísame si crees que estoy equivocado!
user795305

Creo que debemos distinguir entre lo que se está probando y lo que es una suposición de la hipótesis nula (que es parte de lo que quiero decir cuando digo que la distribución nula es diferente). El σ ^ 2_ {id ∗ Xw1} = 0 que tienes no se está probando realmente, puedes tener datos donde eso no es del todo cierto, pero si X_ {w1j} es exactamente igual a 0 para todo j, entonces no rechazarás el nulo.
Aaron dejó Stack Overflow el

1
La pregunta es, ¿qué concluyes cuando rechazas el nulo? En cualquier caso, estás concluyendo que tienes evidencia de que el grupo significa que son diferentes. No concluye que las medias grupales son diferentes O que la varianza es grande. Es decir, la hipótesis nula en ambos casos es simplemente que todos los medios grupales son iguales. Lo que cambia es la estadística de prueba que usamos para probar eso y la distribución de esa estadística de prueba.
Aaron dejó Stack Overflow el

1
Me he dado cuenta de que estoy confundido por toda tu línea de razonamiento. No se deriva una hipótesis nula, simplemente se establece a priori, y luego se elige una estadística de prueba y se determina su distribución bajo nulo. En ambos casos, la hipótesis nula es simplemente que todas las medias del grupo son iguales.
Aaron dejó Stack Overflow el

1
@Aaron En el chat, ameba señaló amablemente que parece haber entendido mal su respuesta a la pregunta 2. Le interpreté diciendo que en el caso de medidas repetidas, las hipótesis nulas correspondientes a las estadísticas de prueba con MSE en denom o MS_inter en el denom. son lo mismo. (De hecho, mi párrafo final al que te señalé es en el marco de medidas repetidas). Sin embargo, ahora parece que eso no era lo que estabas diciendo. ¡Mi error! ameba y yo borramos nuestros comentarios para evitar que esto engañe a los futuros lectores.
user795305

2

Esta nota depende de los resultados contenidos en los Modelos lineales de Moser: un enfoque de modelo medio . Citaré algunos resultados de este libro en lo que sigue. Cuando vi tu pregunta, comencé a leer el libro: esta nota es la forma en que mis pensamientos se organizaron después.

Dejar yNn(μ,Σ) ser la respuesta, con μ que contiene los efectos fijos y Σ que contiene los efectos aleatorios

Tomar yTAiyser las sumas de cuadrados correspondientes a cada término (covariables e interacciones) en el modelo. Tenga en cuenta que estas sumas de cuadrados son invariables para determinar si los términos son fijos o aleatorios. Suponga que cadaAi es simétrico e idempotente, lo cual será cierto en la mayoría de los modelos de interés.

Cuando sostiene que

I=iAi,
lo que equivale a las sumas de cuadrados correspondientes a una descomposición en subespacios ortogonales ya que hemos asumido el Ai son proyectores, y
Σ=iciAi,
por el teorema de Cochran (lema 3.4.1),
yTAiyciχdi2(μTAiμ/ci),
para di=tr(Ai)y yTAjy es independiente de yTAky para jk.

El termino

F~=yTAjy/djyTAky/dkcjχdj2(μTAjμ/cj)/djckχdk2(μTAkμ/ck)/dk
es de hecho un (central) F estadística si y solo si
(1)cjck=1,(2)μTAjμ=0,(3)μTAkμ=0, and 
Cuando se satisfacen estas tres condiciones, podemos calcular p-valores correspondientes a la estadística F~. Estos términos básicamente solo ayudan en la computabilidad ya quecidependen de los componentes de varianza y los parámetros de no centralidad dependen de la media μ. La segunda condición asegura queF~ tendrá (al menos) un no central Fdistribución. Bajo la segunda condición, la tercera condición da queF~ tiene una central F distribución.

Los cuadrados medios esperados (EMS) correspondiente a la ith suma de cuadrados yTAiy es

EMSi:=1tr(Ai)E[yTAiy]=tr(AiΣ)+μTAiμtr(Ai)=ci+μTAiμtr(Ai),
dónde tr(AiΣ)=citr(Ai)debido a cor 3.1.2. El radio
EMSjEMSk=cj+μTAjμtr(Aj)ck+μTAkμtr(Ak)=1
si las condiciones (1), (2)y (3)sostener. Es por eso que las personas inspeccionan la proporción deEMS al determinar qué sumas de cuadrados dividir para formar un F estadística para probar una hipótesis nula particular.

Usamos condiciones (1),(2)y (3)para especificar la hipótesis nula. En mi experiencia, cuando el término (correspondiente aj) que estamos interesados ​​en probar es aleatorio, hacemos que la hipótesis nula sea cj/ck=1, y, cuando está arreglado, hacemos que la hipótesis nula sea yTAjy=0. En particular, estos nos permiten elegirk para que el resto de condiciones (1),(2) y (3)estan satisfechos. Tal elección dekno siempre es posible, lo que lleva a dificultades parecidas a Behrens-Fisher .

Esto no explica nada particularmente relacionado con el problema en cuestión, pero eso solo equivale a la informática μ y Σ. Espero que esto se vea como una forma útil de pensar sobre el problema. Tenga en cuenta que el ejemplo 4.4.1 calcula cuáles son todas las cantidades anteriores en el ejemplo ANOVA de dos vías.

La diferencia se debe a la estructura del problema y no a la convención. Estos diferentes enfoques (dos vías versus medida repetida) cambianμ y Σ, que cambia el EMS, que cambia qué k Elegimos construir la prueba.


Consideremos el modelo

yijk=μ0+idi+Xw1j+idXw1ij+R(idXw1)k(ij),
dónde i denota el nivel de id, etc. Aquí k denota cuál de las 3 réplicas se está considerando.

Ahora presentamos alguna notación vectorial útil: escribir y=(y111,y112,y113,y121,y20,3,3). Dado que estos datos están equilibrados, podemos hacernos una notación de producto kronecker . (Como comentario, me dijeron que Charlie Van Loan una vez llamó al producto kronecker "¡la operación de los años 2000!") DefinirJ¯Rm×m ser la matriz con todas las entradas iguales a 1m y C=IJ¯ser la matriz de centrado (La matriz de centrado se llama así porque, por ejemplo,Cx22=i(xix¯)2 para un vector x.)

Con esta notación de producto kronecker debajo del cinturón, podemos encontrar las matrices Aimencionado anteriormente. La suma de los cuadrados correspondientes aμ0 es

SS(μ0)=n(y¯)2=(J¯J¯J¯)y22=yT(J¯J¯J¯)y,
donde el primer componente J¯R20×20, el segundo está en R3×3y el tercero está en R3×3. En términos generales, las matrices en esos componentes siempre serán de ese tamaño. Además, la suma de cuadrados debido aid es
SS(id)=ijk(y¯iy¯)2=(CJ¯J¯)y22=yT(CJ¯J¯)y.
Darse cuenta de SS(id) de hecho mide la variación entre niveles de id. Del mismo modo, las otras matrices sonAXw1=J¯CJ¯, AidXw1=CCJ¯y AR()=IIC.

Se demuestra que esto es consistente con aov ejecutar código para dar, por ejemplo, la suma residual de cuadradosSS(R(idXw1))=yTAR()y:

mY <- c()
for(j in 1:(nrow(d)/3)) {
  mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares

En este punto, tenemos que tomar algunas decisiones de modelado. En particular, tenemos que decidir siidEs un efecto aleatorio. Supongamos primero que no es un efecto aleatorio, por lo que todos los efectos además de la replicación son fijos. Entonces

E[yijk]=μij=μ0+idi+Xw1jk+idXw1ij
y R(idXw1)k(ij)iidN(0,σ2). Tenga en cuenta que no hay dependencia entre observaciones distintas. En notación vectorial, podemos escribir
yN(μ,Σ)
para μ=E[y]=(μ11,μ12,,μ20,3)13 y Σ=σ2(III).

Notando que la suma de todos 5 del ALo definido anteriormente es la identidad, sabemos por el teorema de Cochran que, entre otras cosas,

SS(Xw1)=yTAXw1yσ2χ(19)(1)(1)2(μTAXw1μ/σ2)
y
SS(R(idXw1))=yTAR()yσ2χ(20)(3)(2)2(μTAR()μ/σ2)
y estas sumas de cuadrados son independientes.

Ahora, en línea con lo que discutimos anteriormente, queremos condiciones (1),(2), y (3)sostener. Note esa condición(1) se mantiene (porque no hay otros componentes de varianza para complicar las cosas). Lo que es realmente genial notar ahora es que μTAR()μ=0, ya que μ es constante a lo largo de este tercer "componente" que está siendo centrado por AR(). Esto significa que(3)está detrás de nosotros Por lo tanto, solo tenemos que preocuparnos por la condición(2): si lo asumimos (como una hipótesis nula) entonces estamos asumiendo que 0=μTAXw1μ=ijk(μijμ¯i)2, que es lo mismo que μij=μ¯i para todos i,j, que es lo mismo que Xw1j=0 y idXw1ij=0 para todos i,j (ya que el nivel medio está en los otros términos).

En resumen, se puede ver que la hipótesis nula solo prueba si un parámetro de no centralidad es cero, lo que es equivalente a los efectos sobre la covariable como cero. El caso de medidas repetidas sigue una línea de razonamiento similar, donde en su lugar hacemos la elección de modelado que elidEl efecto es aleatorio. Allí, condición(1) se convertirá en la hipótesis nula.

En relación con el Rcomando, como mencionas en los comentarios de la publicación original, este término de error solo especifica qué términos se deben considerar como efectos aleatorios. (Tenga en cuenta que todos los términos que se incluirán en el modelo deben ser simplemente ingresados ​​o ingresados ​​dentro del Error()término. Es por eso que hay una diferencia entre id/Xw1 = id + id:Xw1y idestar en el Errortérmino. Los términos no incluidos se agrupan con el error en el sentido de queAR()+AidXw1 se vuelve a etiquetar como AR().)


Aquí están los detalles explícitos relacionados con el caso de medidas repetidas donde los términos relacionados con id (que son id y idXw1) son al azar. Veremos que este es el caso más interesante.

Allí tenemos la misma suma de matrices de cuadrados (ya que no dependen de si un factor es fijo o aleatorio). La matriz de covarianza que hay

Σ=(a)σid2(IJJ)+σidXw12(ICJ)+σR()2(III)=σid2(3)(3)(Aμ0+Aid)+σidXw12(3)(AXw1+AidXw1)+σR()2(Aμ0+Aid+AXw1+AidXw1+AR())=((3)(3)σid2+σR()2)Aμ0+((3)(3)σid2+σR()2)Aid+((3)σidXw12+σR()2)AXw1+((3)σidXw12+σR()2)AidXw1+σR()2AR(),
dónde JEs la matriz de todos. El primer y último sumando en el lado derecho de la igualdad (a) ofrecen explicaciones intuitivas: el primer sumando muestra que hay una fuente adicional de correlación entre las observaciones con el mismoid, y el tercer summand muestra, como en el ejemplo de dos vías, la fuente base de variación. Este segundo sumando es menos intuitivo, pero entre las observaciones con el mismo \ mathrm {id}, puede verse como una variación creciente entre observaciones con el mismoXw1 mientras disminuye la variación entre observaciones con diferentes Xw1, debido a la forma de ICJ.

Además, dado que todos los términos relacionados con id son aleatorios, la media se debe solo a Xw1, así que eso E[yijk]=μj=μ0+Xw1jo μ=1(μ1,μ2,μ3)1.

Tenga en cuenta que, relacionado con la condición (1): tenemos

cXw1cidXw1=(3)σidXw12+σR()2(3)σidXw12+σR()2=1,
while
cXw1cR()=(3)σidXw12+σR()2σR()21.
Further, related to condition (3) both μTAXw1idμ=0 and μTAR()μ=0. Also, related to condition (2): we see that
μTAXw1μ=AXw1μ22=(J¯CJ¯)(1(μ1,μ2μ3)1)22=(20)(3)C(μ1,μ2μ3)22=(20)(3)j(Xw1j)2.

Therefore, if the denominator sum of squares was the residual R(idXw1) like before, there would be both conditions (1) and (2) in the null hypothesis---since those are the two conditions that aren't satisfied without assumptions. However, if we were to use denominator sum of squares as the interaction, since condition (1) is already satisfied, the null hypothesis would just be condition (2). So, as you mention in your question, these different denominators just amount to different null hypotheses.

This analysis technique we use allows the choice of which null hypothesis is being tested to be transparent. Indeed, we can see this by writing out the conditions mentioned in the previous paragraph more explicitly. Using the denominator as the residual sum of squares forces us to test Xw1j=0 for all j and σidXw12=0, while using the denominator as the interaction sum of squares allows us to simply test Xw1j=0 for all j.


+1. Wow, thanks a lot. It will take me some time to digest this answer. I am not very familiar with the mathematical theory of hypothesis testing in linear models, so this is a bit hard to understand. I might come back to you with some questions in the following days. I was more expecting to get an answer in the style of the example on pp. 2-3 of this paper jakewestfall.org/publications/JWK.pdf, where expected mean squares are computed in several fixed-vs-random situations and everything follows from there. It looks like you are talking about the same thing, but more formal.
amoeba

I've included an example. (They can get pretty long to write out!) I think it takes some time to get comfortable with kronecker product manipulations, but, after that, this is more easily understandable. Also, I keep finding typos in the answer. Please let me know if you think there's any!
user795305

1
Whew, that's a lot of math! The question seems much more conceptual to me, I'll see if I can find the time add an answer in words.
Aaron left Stack Overflow

1
@Aaron since amoeba asked for a comprehensive answer and about extending this problem to other scenarios, I figured it would be worthwhile to provide a full explanation of F tests in ANOVA. The answer got notationally heavy just because there's a lot of computation involved when doing it in a fully generalizable way. (Although, to be clear, the most math involved is evaluating the norm of a projected vector.) I'd be very interested to see a more conceptual answer that fully explains the intricacies that I introduced (more than a little) notation to explain. Please do post if you have time!
user795305
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.