Aquí hay cuatro conjuntos diferentes de números:
A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}
Utilizando una prueba t de dos muestras sin suponer variaciones iguales, comparo B, C y D con A y obtengo los siguientes valores p:
0.015827 (A vs B)
0.000283 (A vs C)
0.001190 (A vs D)
Me resulta extraño que el valor p de la prueba AD sea peor que la prueba AC: la diferencia entre las medias es claramente mucho mayor Y la varianza de D es mucho menor que la varianza de C. Intuitivamente (al menos para mi intuición ), ambos hechos deberían reducir el valor p.
¿Podría alguien explicarme si este es un comportamiento deseado o esperado de la prueba t o si tiene que ver más con mi conjunto de datos en particular (tal vez un tamaño de muestra extremadamente bajo)? ¿La prueba t es inapropiada para este conjunto particular de datos?
Desde un punto de vista puramente computacional, la razón de un peor valor p parece ser los grados de libertad, que en la comparación AD es 2.018 mientras que es 3.566 en la comparación AC. Pero seguramente, si acaba de ver esos números, ¿no pensaría que hay evidencia más sólida para rechazar la hipótesis nula en el caso de AD en comparación con AC?
Algunos podrían sugerir que esto no es un problema aquí ya que todos los valores p son bastante bajos de todos modos. Mi problema es que estas 3 pruebas son parte de un conjunto de pruebas que estoy realizando. Después de corregir las pruebas múltiples, la comparación AD no hace el corte, mientras que la comparación AC sí. Imagine trazar esos números (digamos gráficos de barras con barras de error como suelen hacer los biólogos) y tratar de justificar por qué C es significativamente diferente de A pero D no es ... bueno, no puedo.
Actualización: por qué esto es realmente importante
Permítanme aclarar por qué esta observación podría tener un gran impacto en la interpretación de estudios anteriores. En bioinfomática, he visto que la prueba t se aplica a tamaños de muestra pequeños a gran escala (piense en la expresión diferencial de genes de cientos o miles de genes, o el efecto de muchos medicamentos diferentes en una línea celular, usando solo 3-5 repeticiones ) El procedimiento habitual es hacer muchas pruebas t (una para cada gen o medicamento) seguido de una corrección de pruebas múltiples, generalmente FDR. Dada la observación anterior del comportamiento de la prueba t de Welch, esto significa que algunos de los mejores casos se están filtrando sistemáticamente. Aunque la mayoría de las personas mirarán los datos reales para las comparaciones en la parte superior de su lista (las que tienen los mejores valores p), no conozco a nadie que revise la lista de todas las comparaciones donde la hipótesis nula no era t rechazado.