Me ofende mucho las siguientes dos ideas:
Con muestras grandes, las pruebas de significación se abalanzan sobre desviaciones pequeñas y sin importancia de la hipótesis nula.
Casi ninguna hipótesis nula es cierta en el mundo real, por lo que realizar una prueba de significación en ellas es absurdo y extraño.
Es un argumento de paja sobre los valores p. El problema fundamental que motivó el desarrollo de las estadísticas proviene de ver una tendencia y de querer saber si lo que vemos es por casualidad o representativo de una tendencia sistemática.
Con eso en mente, es cierto que nosotros, como estadísticos, generalmente no creemos que una hipótesis nula sea verdadera (es decir, , donde es la diferencia media en alguna medición entre dos grupos). Sin embargo, con las pruebas de dos lados, ¡no sabemos qué hipótesis alternativa es verdadera! En una prueba de dos lados, podemos estar dispuestos a decir que estamos 100% seguros de que antes de ver los datos. Pero no sabemos si o . Entonces, si ejecutamos nuestro experimento y concluimos que , hemos rechazado (como podría decir ; conclusión inútil) pero, lo que es más importante, también hemos rechazadoμ dHo:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (digo; conclusión útil). Como señaló @amoeba, esto también se aplica a la prueba unilateral que tiene el potencial de ser bilateral, como probar si un medicamento tiene un efecto positivo.
Es cierto que esto no te dice la magnitud del efecto. Pero sí te dice la dirección del efecto. Así que no pongamos el carro delante del caballo; Antes de comenzar a sacar conclusiones sobre la magnitud del efecto, ¡quiero estar seguro de que tengo la dirección correcta del efecto!
Del mismo modo, el argumento de que "los valores p se abalanzan sobre los efectos pequeños y sin importancia" me parece bastante erróneo. Si piensa en un valor p como una medida de cuánto los datos apoyan la dirección de su conclusión, entonces, por supuesto, desea que recoja pequeños efectos cuando el tamaño de la muestra es lo suficientemente grande. Decir que esto significa que no son útiles es muy extraño para mí: ¿son estos campos de investigación que han sufrido valores p los mismos que tienen tantos datos que no necesitan evaluar la fiabilidad de sus estimaciones? Del mismo modo, si su problema es que los valores p "se abalanzan sobre tamaños de efectos pequeños", entonces simplemente puede probar las hipótesis yH 2 : μ d < - 1H1:μd>1H2:μd<−1(suponiendo que cree que 1 es el tamaño de efecto mínimo importante). Esto se hace a menudo en ensayos clínicos.
Para ilustrar más esto, supongamos que solo miramos los intervalos de confianza y descartamos los valores p. ¿Qué es lo primero que verificaría en el intervalo de confianza? Si el efecto fue estrictamente positivo (o negativo) antes de tomar los resultados demasiado en serio. Como tal, incluso sin valores de p, estaríamos haciendo pruebas de hipótesis de manera informal.
Finalmente, con respecto a la solicitud de OP / Matloff, "Da un argumento convincente de que los valores p son significativamente mejores", creo que la pregunta es un poco incómoda. Digo esto porque, según su punto de vista, se responde automáticamente ("deme un ejemplo concreto donde probar una hipótesis es mejor que no probarla"). Sin embargo, un caso especial que creo que es casi innegable es el de los datos RNAseq. En este caso, típicamente observamos el nivel de expresión de ARN en dos grupos diferentes (es decir, enfermos, controles) y tratamos de encontrar genes que se expresan diferencialmente en los dos grupos. En este caso, el tamaño del efecto en sí mismo ni siquiera es realmente significativo. Esto se debe a que los niveles de expresión de diferentes genes varían tanto que, para algunos genes, tener una expresión 2 veces mayor no significa nada, mientras que en otros genes estrictamente regulados, una expresión 1,2 veces mayor es fatal. Entonces, la magnitud real del tamaño del efecto es realmente poco interesante cuando se comparan los grupos por primera vez. Pero tu¡realmente, realmente quiero saber si la expresión del gen cambia entre los grupos y la dirección del cambio! Además, es mucho más difícil abordar los problemas de las comparaciones múltiples (para las cuales puede hacer 20,000 de ellas en una sola ejecución) con intervalos de confianza que con los valores p.