Sí, hay algunas relaciones simples entre las comparaciones de intervalos de confianza y las pruebas de hipótesis en una amplia gama de entornos prácticos. Sin embargo, además de verificar que los procedimientos de CI y la prueba t son apropiados para nuestros datos, debemos verificar que los tamaños de muestra no sean demasiado diferentes y que los dos conjuntos tengan desviaciones estándar similares. Tampoco deberíamos intentar obtener valores p altamente precisos a partir de la comparación de dos intervalos de confianza, sino que deberíamos alegrarnos de desarrollar aproximaciones efectivas.
Al tratar de conciliar las dos respuestas ya dadas (por @John y @Brett), ayuda a ser matemáticamente explícito. Una fórmula para un intervalo de confianza simétrico de dos lados apropiado para el establecimiento de esta pregunta es
CI=m±tα(n)sn−−√
donde m es la media muestral de n observaciones independientes, s es la desviación estándar de la muestra, 2α es el tamaño de prueba deseado (tasa máxima de falsos positivos) y tα(n) es el percentil superior 1−α de la distribución t de Student con n−1 grados de libertad. (Esta ligera desviación de la notación convencional simplifica la exposición al evitar cualquier necesidad de preocuparse por la distinción n vs n−1 , que de todos modos será intrascendente).
Usando los subíndices 1 y 2 para distinguir dos conjuntos independientes de datos para la comparación, con 1 correspondiente al mayor de los dos medios, la desigualdad (límite de confianza inferior 1) > (límite de confianza superior 2 expresa una no superposición de intervalos de confianza) ); verbigracia. ,>
m1−tα(n1)s1n1−−√>m2+tα(n2)s2n2−−√.
Se puede hacer que se parezca al estadístico t de la prueba de hipótesis correspondiente (para comparar las dos medias) con manipulaciones algebraicas simples, produciendo
metro1- m2s21/ n1+ s22/ n2-----------√> s1norte2--√tα( n1) + s2norte1--√tα( n2)norte1s22+ n2s21---------√.
El lado izquierdo es la estadística utilizada en la prueba de hipótesis; generalmente se compara con un percentil de una distribución t de Student con norte1+ n2 grados de libertad: es decir, con tα( n1+ n2) . El lado derecho es un promedio ponderado sesgado de los percentiles originales de distribución t.
El análisis hasta ahora justifica la respuesta de @Brett: parece que no hay una relación simple disponible. Sin embargo, probemos más. ¡Estoy inspirado para hacerlo porque, intuitivamente, una no superposición de intervalos de confianza debería decir algo!
Primero, observe que esta forma de prueba de hipótesis es válida solo cuando esperamos que s1 y s2 sean al menos aproximadamente iguales. (De lo contrario, enfrentamos el notorio problema de Behrens-Fisher y sus complejidades). Al verificar la igualdad aproximada de syo , podríamos crear una simplificación aproximada en el formulario
metro1- m2s 1 / n1+ 1 / n2----------√> n2--√tα( n1) + n1--√tα( n2)norte1+ n2------√.
Aquí, s ≈ s1≈s2 . Siendo realistas, no deberíamos esperar que esta comparación informal de límites de confianza tenga el mismo tamaño que α . Nuestra pregunta es si existe un α′ tal que el lado derecho sea (al menos aproximadamente) igual al estadístico t correcto. Es decir, para qué α′ es el caso que
tα′( n1+ n2) = n2--√tα( n1) + n1--√tα( n2)norte1+ n2------√?
Resulta que para tamaños de muestra iguales, α y α′ están conectados (con bastante precisión) por una ley de potencia. Por ejemplo, aquí hay una gráfica de log-log de los dos para los casos norte1= n2= 2 (línea azul más baja), norte1= n2= 5 (línea roja media), norte1= n2= ∞ ( línea de oro más alta). La línea discontinua verde central es una aproximación que se describe a continuación. La rectitud de estas curvas desmiente una ley de poder. Varía con n = n1= n2 , pero no mucho.
La respuesta depende del conjunto { n1, n2} , pero es natural preguntarse cuánto varía realmente con los cambios en los tamaños de muestra. En particular, podríamos esperar que para tamaños de muestra moderados a grandes (quizás norte1≥ 10 , n2≥ 10 o más o menos) el tamaño de la muestra haga poca diferencia. En este caso, podríamos desarrollar una forma cuantitativa de relacionar α′ con α .
Este enfoque funciona si los tamaños de muestra no son muy diferentes entre sí. En aras de la simplicidad, informaré una fórmula general para calcular el tamaño de prueba α′ correspondiente al tamaño del intervalo de confianza α . Es
α′≈ e α1,91;
es decir,
α′≈ exp( 1 + 1.91 log( α ) ) .
Esta fórmula funciona razonablemente bien en estas situaciones comunes:
Ambos tamaños de muestra están cerca uno del otro, norte1≈ n2 , y α no es demasiado extremo ( α > .001 o menos).
Un tamaño de muestra es aproximadamente tres veces mayor que el otro y el más pequeño no es demasiado pequeño (aproximadamente, mayor que 10 ) y nuevamente α no es demasiado extremo.
Un tamaño de muestra está dentro de tres veces el otro y α > .02 o menos.
El error relativo (valor correcto dividido por la aproximación) en la primera situación se traza aquí, con la línea inferior (azul) mostrando el caso norte1= n2= 2 , la línea media (roja) el caso norte1= n2= 5 , y la línea superior (dorada) el caso norte1= n2= ∞ . Interpolando entre los dos últimos, vemos que la aproximación es excelente para una amplia gama de valores prácticos de α cuando los tamaños de muestra son moderados (alrededor de 5-50) y de lo contrario es razonablemente bueno.
Esto es más que suficiente para mirar un montón de intervalos de confianza.
2 α2 e α1,91
2 α
2 α 2 α′
0.05 0.005
0.01 0.0002
0.005 0.00006
2 α = .05p < .005norte.0037n = 2.0056n = ∞
Este resultado justifica (y espero que mejore) la respuesta de @John. Por lo tanto, aunque las respuestas anteriores parecen estar en conflicto, ambas son (a su manera) correctas.