¿Cuánto más pequeños pueden ser los valores

Introducción: Habiendo notado la atención recibida hoy por esta pregunta, " ¿Puede ANOVA ser significativo cuando ninguna de las pruebas t por pares lo es? ", Pensé que podría volver a enmarcarlo de una manera interesante que mereciera su propio conjunto de respuestas. .

Una variedad de resultados incongruentes (al pie de la letra) puede ocurrir cuando la significación estadística se entiende como una simple dicotomía y se juzga sobre la base de que es mayor, $p$ o $\alpha$ . La respuesta de @ Glen_b a la pregunta anterior presenta un ejemplo útil de un caso en el que:

Una prueba ANOVA $F$ produce una $p_F<.05$ para una variable independiente (IV) con cuatro niveles, pero
$p_t>.08$ para todas laspruebas dos muestras $t$ que comparan las diferencias en la misma variable dependiente (DV) entre las observaciones correspondientes a cada par de los cuatro niveles del IV.

Un caso similar surgió a pesar de las correcciones de Bonferroni para las comparaciones por pares post-hoc a través de esta pregunta: las medidas repetidas de Anova son significativas, pero todas las comparaciones múltiples con la corrección de Bonferroni no lo son. También existen casos mencionados anteriormente con una prueba ligeramente diferente en regresión múltiple:

¿Por qué es posible obtener una estadística F significativa (p <.001) pero pruebas t de regresor no significativas? : $p_F<.001,p_{\beta t}>.09$
¿Cómo puede una regresión ser significativa pero todos los predictores no son significativos?
- En la respuesta de @ whuber , $p_F=.0003,p_{\beta t}>.09$

Apuesto a que en casos como estos, algunas (pero no todas) las comparaciones por pares (o los coeficientes de regresión 'pruebas de significación') valores deben estar bastante cerca de si una prueba ómnibus correspondiente puede lograr una $p$ $\alpha$ $p <\alpha$ . Veo que este es el caso en el primer ejemplo de @ Glen_b, donde , , y la mayor diferencia por pares da la menor . ¿Debe ser este el caso en general? Más específicamente : $F_{(3,20)}=3.19$ $p_F=.046$ $p_t=.054$

Pregunta: Si una prueba ANOVA produce una para el efecto de un IV politomatoso en un DV continuo, ¿qué tan alto podría ser el valor más bajo entre todas las pruebas dos muestras que comparan cada par de niveles de IV? ¿Podría la significancia mínima en pares ser tan alta como ? $F$ $p_F=.05$ $p$ $t$ $p_t=.50$

_{Agradezco las respuestas que aborden solo esta pregunta específica . Sin embargo, para motivar aún más esta pregunta, elaboraré y agregaré algunas preguntas potencialmente retóricas. Siéntase bienvenido a abordar estas inquietudes e incluso a ignorar la pregunta específica si lo desea, especialmente si la pregunta específica obtiene una respuesta definitiva.}

Importancia: considere cuánto menos importante sería la diferencia entre una y una si la significación estadística se juzgara en términos continuos de la fuerza de la evidencia contra la hipótesis nula (¿creo que el enfoque de Ron Fisher? ), en lugar de en términos dicotómicos como arriba o abajo de un umbral de para una probabilidad aceptable de error al elegir si se rechaza la venta al por mayor nula. " hacking " es un problema conocido que en parte debe su notoriedad a una vulnerabilidad innecesaria introducida por la interpretación de $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ valores de acuerdo con la práctica común de dicotomizar la significación en los equivalentes de "suficientemente bueno" y "no suficientemente bueno". Si uno dispusiera de esta práctica y se enfocara en interpretar los valores de como la fuerza de la evidencia contra el nulo en un intervalo continuo, ¿podrían las pruebas omnibus ser algo menos importantes cuando uno realmente se preocupa por las comparaciones múltiples por pares? No es necesariamente inútil, ya que cualquier mejora razonablemente eficiente en la precisión estadística es, por supuesto, deseable, pero ... si, por ejemplo, el valor la comparación por pares más baja está necesariamente dentro de del ANOVA (u otra prueba omnibus) $p$ $p$ $.10$ $p$ valor, no hace esta marca ensayo ómnibus algo más trivial, menos obligatoria, y aún más engañosa (en conjunción con malentendidos preexistente), especialmente si uno no particularmente quieren controlar a través de múltiples pruebas? $\alpha$

Por el contrario, si los datos pueden existir de manera tal que un ómnibus , pero todos por pares , ¿no debería esto motivar aún más el ómnibus y las pruebas de contraste a lo largo de la práctica y la pedagogía? Me parece que este tema también debería informar los méritos relativos de juzgar la significación estadística de acuerdo con una dicotomía frente a un continuo, en el sentido de que el sistema interpretativo dicotómico debería ser más sensible a pequeños ajustes cuando las diferencias son "marginalmente significativas", mientras que ninguno de los sistemas está a salvo de una falla en la realización de una prueba ómnibus o ajuste para comparaciones múltiples si esta diferencia / ajuste puede ser muy grande (p. ej., $p=.05$ $p>.50$ en teoría. $p_t-p_F>.40)$

_{Otras complejidades opcionales para tener en cuenta o ignorar, lo que hace que responder sea más fácil y valga la pena :}

^{Qué tan alto s para s podría ser si, para , lugar (p. Ej., ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Sensibilidad al número de niveles en un IV politomatoso}
^{Sensibilidad a la desigualdad en la importancia de las diferencias entre pares (mientras que todos los ) $p_t>p_F$}
- ^{La respuesta de Whuber indica que incluir pequeñas diferencias puede enmascarar grandes diferencias.}
^{Diferencias entre varias correcciones de pruebas ómnibus para comparaciones múltiples}
- ^{Ver también: Corrección para comparaciones múltiples en un ANOVA dentro de los sujetos / medidas repetidas; excesivamente conservador?}
- ^{Con múltiples IV, parece que la multicolinealidad puede exacerbar este problema .}
^{Casos restringidos donde los datos cumplen todos los supuestos de las pruebas paramétricas clásicas de manera óptima}
- ^{Esta restricción puede ser importante para evitar que esta pregunta sea algo discutible.}

— Nick Stauner
fuente

Es posible que desee aclarar si las pruebas t por pares deben usar la misma estimación de varianza de error que la prueba F omnibus (en el ejemplo de Glen no lo hacen).

— Scortchi - Restablece a Monica

Quería decir un t-test ordinaria para la diferencia en las medias utilizando

, pero con

calculado como la raíz cuadrada del error cuadrático medio ANOVAR. Es la prueba t por pares post-hoc habitual yno seajusta para comparaciones múltiples, a diferencia del HSD de Tukey. Incorpora información de todos los grupos, pero es independiente de las diferencias en los medios grupales.

t = ({\bar{y}}_{1} - {\bar{y}}_{2}) / (\hat{σ} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}})

$t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

\hat{σ}

$\hat\sigma$

— Scortchi - Restablece a Monica

Ya veo (más o menos)! Me interesaría principalmente seguir el ejemplo de @ Glen_b y no usar

, pero usando la primera fórmula que mencionaste para evitar incorporar información de todos los grupos. Eso no quiere decir que tenga una fuerte preferencia aquí ... pero parte de mi intención original era presentar una variante del tema común en estas preguntas: "¿Cuál es el daño real al ignorar la información más allá de los dos grupos particulares en cuestión para cualquier prueba de dos muestras entre muchas? Supongo que vale la pena llevar a cabo ese tema también en esta decisión.

\sqrt{MSE}

$\sqrt{\text{MSE}}$

— Nick Stauner el

@Scortchi He incluido un ejemplo en la otra pregunta que cubre su primer comentario (es decir, dónde se realizan las pruebas utilizando la varianza de error común y df), aunque todas las pruebas (F y comparaciones múltiples) se realizan a un nivel de significancia bastante bajo (0.0025, no 0.05). Cuando se compara con las pruebas t de dos muestras ordinarias individuales como lo solicita Nick S. aquí, muestra que es posible una diferencia bastante significativa en la significación (en este caso,

para todas las pruebas t ordinarias , sin embargo,

). Creo que con muchos grupos, es posible ir mucho más lejos.

p_{t} > .05

$p_t>.05$

p_{F} < 0.002

$p_F<0.002$

— Glen_b -Reinstalar Monica

Esbocé una respuesta a la primera parte de esta pregunta hace unos minutos en un comentario en stats.stackexchange.com/questions/83030/… .

— whuber

Asumiendo igual $n$ s es [pero vea la nota 2 a continuación] para cada tratamiento en un diseño unidireccional, y que la SD agrupada de todos los grupos se usa en las pruebas (como se hace en las comparaciones post hoc habituales), el máximo posible valor para una prueba es $t$ $p$ $t$ (aquí,denota elcdf). Por lo tanto, no $2\Phi(-\sqrt{2}) \approx .1573$ $\Phi$ $N(0,1)$ $p_t$ puede ser tan alto como . Curiosamente (y bastante extraño), el obligado no sólo tiene capacidad para , pero para cualquier nivel de significación que se requieren para . $0.5$ $.1573$ $p_F=.05$ $F$

La justificación es la siguiente: para un rango dado de medias muestrales, , el mayor estadístico posible se logra cuando la mitad de está en un extremo y la otra mitad está en el otro. Esto representa el caso donde parece el más significativo dado que dos medias difieren en a lo sumo . $\max_{i,j}|\bar y_i - \bar y_j| = 2a$ $F$ $\bar y_i$ $F$ $2a$

Entonces, sin pérdida de generalidad, suponga que para que en este caso límite. Y de nuevo, sin pérdida de generalidad, supongamos que , ya que siempre podemos reescalar los datos a este valor. Ahora considere significa (donde es incluso por simplicidad [pero vea la nota 1 a continuación]), tenemos $\bar y_.=0$ $\bar y_i=\pm a$ $MS_E=1$ $k$ $k$ . Establecerpara que $F=\frac{\sum n\bar y^2/(k-1)}{MS_E}= \frac{kna^2}{k-1}$ $p_F=\alpha$ , obtenemos $F=F_\alpha=F_{\alpha,k-1,k(n-1)}$ . Cuando todos losson(y aún), cadaestadísticadistinta de ceroes $a =\sqrt{\frac{(k-1)F_\alpha}{kn}}$ $\bar y_i$ $\pm a$ $MS_E=1$ $t$ . Este es elvalormáximo más pequeñoposible cuando. $t=\frac{2a}{1\sqrt{2/n}} = \sqrt{\frac{2(k-1)F_\alpha}{k}}$ $t$ $F=F_\alpha$

Por lo tanto, puede probar diferentes casos de y , calcular y su asociada . Pero observe que para dado , está disminuyendo en [pero vea la nota 3 a continuación]; además, como , ; entonces $k$ $n$ $t$ $p_t$ $k$ $F_\alpha$ $n$ $n\rightarrow\infty$ $(k-1)F_{\alpha,k-1,k(n-1)} \rightarrow \chi^2_{\alpha,k-1}$ . Tenga en cuenta que $t \ge t_{min} =\sqrt{2\chi^2_{\alpha,k-1}/k}$ tiene una media de $\chi^2/k=\frac{k-1}k \chi^2/(k-1)$ y SD $\frac{k-1}k$ . Entonces $\frac{k-1}k\cdot\sqrt{\frac2{k-1}}$ , independientemente de, y el resultado que indiqué en el primer párrafo anterior se obtiene de la normalidad asintótica. $\lim_{k\rightarrow\infty}t_{min} = \sqrt{2}$ $\alpha$

Sin embargo, lleva mucho tiempo alcanzar ese límite. Aquí están los resultados (calculados usando R) para varios valores de , usando : $k$ $\alpha=.05$

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Unos cabos sueltos ...

Cuando k es impar: el estadístico máximo todavía ocurre cuando son todos ; sin embargo, tendremos uno más en un extremo del rango que el otro, haciendo la media , y puede demostrar que el factor en el $F$ $\bar y_i$ $\pm a$ $\pm a/k$ $k$ estadístico se reemplaza por $F$ . Esto también reemplaza el denominador de $k-\frac 1k$ , haciéndolo un poco más grande y, por lo tanto, disminuyendo . $t$ $p_t$
Desigual s: $n$ El máximo todavía se logra con , con los signos dispuestos para equilibrar los tamaños de muestra de la manera más equitativa posible. Entonces, la estadística para el mismo tamaño de muestra total será igual o menor que para los datos balanceados. Además, el estadístico máximo será mayor porque será el que tenga el mayor . Por lo tanto, no podemos obtener valores de más grandes al observar casos desequilibrados. $F$ $\bar y_i = \pm a$ $F$ $N = \sum n_i$ $t$ $n_i$ $p_t$
Una ligera corrección: estaba tan concentrado en tratar de encontrar el mínimo que pasé por alto el hecho de que estamos tratando de maximizar , y es menos obvio que una más grande con menos df no será menos significativa que una más pequeña uno con más df. Sin embargo, verifiqué que este es el caso calculando los valores para hasta que el df sea lo suficientemente alto como para hacer poca diferencia. Para el caso No vi ningún caso en el que los valores de no aumentaran con $t$ $p_t$ $t$ $n=2,3,4,\ldots$ $\alpha=.05, k\ge 3$ $p_t$ . Tenga en cuenta que por lo que los posibles df son que se hacen grandes rápidamente cuando es grande. Así que todavía estoy en terreno seguro con el reclamo anterior. También probé , y el único caso que observé dondese superó el umbral de fue . $n$ $df=k(n-1)$ $k,2k,3k,\ldots$ $k$ $\alpha=.25$ $.1573$ $k=3,n=2$

— Russ Lenth
fuente