Introducción: Habiendo notado la atención recibida hoy por esta pregunta, " ¿Puede ANOVA ser significativo cuando ninguna de las pruebas t por pares lo es? ", Pensé que podría volver a enmarcarlo de una manera interesante que mereciera su propio conjunto de respuestas. .
Una variedad de resultados incongruentes (al pie de la letra) puede ocurrir cuando la significación estadística se entiende como una simple dicotomía y se juzga sobre la base de que es mayor, o . La respuesta de @ Glen_b a la pregunta anterior presenta un ejemplo útil de un caso en el que:
- Una prueba ANOVA produce una para una variable independiente (IV) con cuatro niveles, pero
- para todas laspruebas dos muestrasque comparan las diferencias en la misma variable dependiente (DV) entre las observaciones correspondientes a cada par de los cuatro niveles del IV.
Un caso similar surgió a pesar de las correcciones de Bonferroni para las comparaciones por pares post-hoc a través de esta pregunta: las medidas repetidas de Anova son significativas, pero todas las comparaciones múltiples con la corrección de Bonferroni no lo son. También existen casos mencionados anteriormente con una prueba ligeramente diferente en regresión múltiple:
- ¿Por qué es posible obtener una estadística F significativa (p <.001) pero pruebas t de regresor no significativas? :
- ¿Cómo puede una regresión ser significativa pero todos los predictores no son significativos?
- En la respuesta de @ whuber ,
Apuesto a que en casos como estos, algunas (pero no todas) las comparaciones por pares (o los coeficientes de regresión 'pruebas de significación') valores deben estar bastante cerca de α si una prueba ómnibus correspondiente puede lograr una p < α . Veo que este es el caso en el primer ejemplo de @ Glen_b, donde , p F = .046 , y la mayor diferencia por pares da la menor p t = .054 . ¿Debe ser este el caso en general? Más específicamente :
Pregunta: Si una prueba ANOVA produce una p F = .05 para el efecto de un IV politomatoso en un DV continuo, ¿qué tan alto podría ser el valor p más bajo entre todas las pruebas t de dos muestras que comparan cada par de niveles de IV? ¿Podría la significancia mínima en pares ser tan alta como p t = .50 ?
Agradezco las respuestas que aborden solo esta pregunta específica . Sin embargo, para motivar aún más esta pregunta, elaboraré y agregaré algunas preguntas potencialmente retóricas. Siéntase bienvenido a abordar estas inquietudes e incluso a ignorar la pregunta específica si lo desea, especialmente si la pregunta específica obtiene una respuesta definitiva.
Importancia: considere cuánto menos importante sería la diferencia entre una y una p t = .06 si la significación estadística se juzgara en términos continuos de la fuerza de la evidencia contra la hipótesis nula (¿creo que el enfoque de Ron Fisher? ), en lugar de en términos dicotómicos como arriba o abajo de un umbral de α = .05 para una probabilidad aceptable de error al elegir si se rechaza la venta al por mayor nula. " p- hacking " es un problema conocido que en parte debe su notoriedad a una vulnerabilidad innecesaria introducida por la interpretación de pvalores de acuerdo con la práctica común de dicotomizar la significación en los equivalentes de "suficientemente bueno" y "no suficientemente bueno". Si uno dispusiera de esta práctica y se enfocara en interpretar los valores de como la fuerza de la evidencia contra el nulo en un intervalo continuo, ¿podrían las pruebas omnibus ser algo menos importantes cuando uno realmente se preocupa por las comparaciones múltiples por pares? No es necesariamente inútil, ya que cualquier mejora razonablemente eficiente en la precisión estadística es, por supuesto, deseable, pero ... si, por ejemplo, el valor p de la comparación por pares más baja está necesariamente dentro de .10 del ANOVA (u otra prueba omnibus) pvalor, no hace esta marca ensayo ómnibus algo más trivial, menos obligatoria, y aún más engañosa (en conjunción con malentendidos preexistente), especialmente si uno no particularmente quieren controlar a través de múltiples pruebas?
Por el contrario, si los datos pueden existir de manera tal que un ómnibus , pero todos por pares p > .50 , ¿no debería esto motivar aún más el ómnibus y las pruebas de contraste a lo largo de la práctica y la pedagogía? Me parece que este tema también debería informar los méritos relativos de juzgar la significación estadística de acuerdo con una dicotomía frente a un continuo, en el sentido de que el sistema interpretativo dicotómico debería ser más sensible a pequeños ajustes cuando las diferencias son "marginalmente significativas", mientras que ninguno de los sistemas está a salvo de una falla en la realización de una prueba ómnibus o ajuste para comparaciones múltiples si esta diferencia / ajuste puede ser muy grande (p. ej., p t - p F > en teoría.
Otras complejidades opcionales para tener en cuenta o ignorar, lo que hace que responder sea más fácil y valga la pena :
- Qué tan alto s para t s podría ser si, para F , p < .05 en su lugar (p. Ej., P = .01 , .001 , ... )
- Sensibilidad al número de niveles en un IV politomatoso
- Sensibilidad a la desigualdad en la importancia de las diferencias entre pares (mientras que todos los )
- La respuesta de Whuber indica que incluir pequeñas diferencias puede enmascarar grandes diferencias.
- Diferencias entre varias correcciones de pruebas ómnibus para comparaciones múltiples
- Ver también: Corrección para comparaciones múltiples en un ANOVA dentro de los sujetos / medidas repetidas; excesivamente conservador?
- Con múltiples IV, parece que la multicolinealidad puede exacerbar este problema .
- Casos restringidos donde los datos cumplen todos los supuestos de las pruebas paramétricas clásicas de manera óptima
- Esta restricción puede ser importante para evitar que esta pregunta sea algo discutible.