Todo está en la familia; pero ¿incluimos a los suegros también?

Supongamos que tengo un experimento con dos o más factores. Se construye un ANOVA general, y luego hacemos un seguimiento con dos o más conjuntos de pruebas post hoc , por ejemplo, comparaciones múltiples. Mi pregunta es acerca de qué tan grandes y cuántas familias deben usarse como base para los ajustes de multiplicidad de estas pruebas post hoc .

Un ejemplo es el conjunto de datos warp-breaks del libro de Tukey sobre EDA. Hay dos factores: wool(en dos niveles) y tension(en tres niveles). La tabla ANOVA es:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

Claramente, la interacción es necesaria en el modelo. Entonces decidimos hacer comparaciones de los niveles de cada factor, manteniendo fijo el otro factor. Los resultados están a continuación, con algunas anotaciones a las que se hará referencia más adelante:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Creo que existen diferentes prácticas, y me pregunto cuáles son las más comunes y qué argumentos haría la gente a favor o en contra de cada enfoque. Al calcular los valores ajustados , ¿deberíamos hacer ajustes de multiplicidad para ... $P$

cada una de las cinco familias más pequeñas (T | A, T | B, ..., W | H) por separado? (Nota: las últimas 3 familias tienen solo una prueba, por lo que no habría ajustes de multiplicidad para esas)
cada una de las familias más grandes (T, con 6 pruebas y W, con 3 pruebas) por separado?
¿Todas las pruebas consideradas como una gran familia? $6+3=9$

Estoy interesado tanto en lo que la gente suele hacer (incluso si no han pensado mucho en ello) como en por qué (si lo han hecho). Un par de cosas que podría mencionar son:

Hay 3 pruebas en la tabla ANOVA. No recuerdo haber visto a nadie considerar un ajuste de multiplicidad en las pruebas ANOVA. Si ese es el caso, y usted recomienda la opción (3), ¿está siendo inconsistente? $F$
Si hubiéramos hecho un experimento algo más pequeño en el que todas las pruebas son menos potentes, es posible que la interacción no hubiera sido significativa, lo que llevaría a un número mucho menor de comparaciones post hoc de medias marginales solamente. Además, los medios marginales podrían tener SE más pequeños que los medios celulares en el experimento más grande. Si, además, el ajuste de multiplicidad es menos conservador, podríamos tener resultados más "significativos" con menos datos de los que tendríamos con más datos.

Interesado en ver lo que la gente tiene que decir ...

multiple-comparisons post-hoc

— Russ Lenth
fuente

Nadie ha respondido todavía, así que voy a echar un vistazo a esto.

Es mi opinión (y me encantaría escuchar los pensamientos de los demás) de que debería ajustarse para las 9 pruebas completas en este caso. Suponiendo que estamos usando la corrección de la tasa de error familiar,

Simultáneamente sacamos conclusiones de las 9 pruebas a la vez. Es decir, escanear la lista y ver para encontrar algo significativo.
Para poder hacer esto, estamos considerando una tasa general de error familiar del 5%. La alternativa sería corregir individualmente los grupos a un 5% FWER. Esto significaría que al interpretar, no podríamos interpretar las pruebas juntas, y preferiríamos mirar las primeras 6 pruebas y pensar que hay un 5% de posibilidades de un falso positivo, y luego examinar cada una de las pruebas adicionales a su vez que hay un 5% de posibilidades de un falso positivo para cada grupo . En mi opinión, la utilidad de la corrección de pruebas múltiples es que podemos extraer simultáneamente inferencia de múltiples pruebas a la vez. Parece más lógico que deberíamos mirar las 9 pruebas y saber que hay un 5% de posibilidades de un falso positivo, en lugar de tener que examinarlas por separado, lo que equivale a no corregir en absoluto.
El tema del ajuste para las tres pruebas en el ANOVA es interesante, pero en mi opinión solo es relevante si planea hacer una selección de modelo en el que solo acepta predictores significativos. Esta podría ser una buena lectura, específicamente la conclusión es una lectura muy sucinta y excelente. Robé ese enlace de esta pregunta. $F$
Su punto sobre la inclusión de los efectos de interacción es interesante, y creo que podría definirlo como selección de modelo. ¿Hubiera incluido los efectos de interacción si fueran significativos? En este caso, tal vez las estadísticas en el ANOVA original deberían haberse ajustado para facilitar la selección de predictores significativos. $F$

En general, creo que si está sacando inferencia simultánea de un grupo, debe considerar cada prueba en ese grupo para su corrección. De lo contrario, la comprensión estándar de la tasa de error de grupo controlado no se mantiene, y es bastante difícil hacer un seguimiento conceptual de lo que se ha ajustado y lo que no. Mucho mejor, en mi opinión, responsabilizar a todas las pruebas y mantener la tasa de error familiar en un umbral determinado.

Si tiene alguna refutación, me encantaría escucharla, y estoy seguro de que algunas personas no estarán de acuerdo con algunas cosas aquí. Muy interesado en escuchar los pensamientos de otros.

— Chris C
fuente

Gracias. Bien pensado. Pregunta secundaria: ¿es posible hacer que SAS haga esto? No lo creo, pero hay muchas cosas que no sé sobre SAS. Es relevante porque creo que este tipo de ajuste rara vez se usa en la práctica.

— Russ Lenth

Lamentablemente, no sé mucho sobre SAS, lo siento @rvl. Quizás alguien más vea esto y ayude. Espero que haya más gente hablando sobre este tema, es una muy buena pregunta que la gente realmente no piensa tan a menudo.

— Chris C

eso está bien: solo estaba reflexionando sobre lo que en realidad es posible hacer fácilmente con el software existente. Si el consenso se reduce a la opción 3, ¡necesitamos soporte de software para ello!

— Russ Lenth

... pero ahora se puede hacer en R. Vea la nueva respuesta que publiqué en la pregunta relacionada, stats.stackexchange.com/questions/165125/… . Esa pregunta es lo que me hizo pensar en esto.

— Russ Lenth

¡Muy genial! ¿Eres el mantenedor de lsmeans? ¡Eso fue mucho trabajo para esa pregunta!

— Chris C