Un valor p es una variable aleatoria.
Bajo (al menos para una estadística de distribución continua), el valor p debe tener una distribución uniformeH0 0
Para una prueba consistente, bajo el valor p debería ir a 0 en el límite a medida que los tamaños de muestra aumentan hacia el infinito. De manera similar, a medida que los tamaños de los efectos aumentan, las distribuciones de los valores p también deberían tender a desplazarse hacia 0, pero siempre se "distribuirán".H1
La noción de un valor p "verdadero" me parece una tontería. ¿Qué significaría, ya sea bajo o H 1H0 0H1 ? Por ejemplo, podría decir que quiere decir " la media de la distribución de los valores de p en algún tamaño de efecto y tamaño de muestra dados ", pero ¿en qué sentido tiene convergencia donde la dispersión debería reducirse? No es que pueda aumentar el tamaño de la muestra mientras la mantiene constante.
Aquí hay un ejemplo con una muestra de pruebas t y un tamaño de efecto pequeño bajo H1 . Los valores p son casi uniformes cuando el tamaño de la muestra es pequeño, y la distribución se concentra lentamente hacia 0 a medida que aumenta el tamaño de la muestra.
Así es exactamente como se supone que deben comportarse los valores p: para un falso nulo, a medida que aumenta el tamaño de la muestra, los valores p deberían concentrarse más en valores bajos, pero no hay nada que sugiera que la distribución de los valores que toma cuando comete un error de tipo II, cuando el valor p está por encima de su nivel de significación, debería terminar de alguna manera "cerca" de ese nivel de significación.
Entonces, ¿cuál sería un valor de p es una estimación de ? No es como si estuviera convergiendo a algo (que no sea a 0). No está nada claro por qué uno esperaría que un valor p tenga una varianza baja en cualquier lugar, pero a medida que se acerca a 0, incluso cuando la potencia es bastante buena (por ejemplo, para α = 0.05 , la potencia en el caso n = 1000 es cercana a 57 %, pero todavía es perfectamente posible obtener un valor p cerca de 1)
A menudo es útil considerar lo que está sucediendo tanto con la distribución de cualquier estadística de prueba que use bajo la alternativa como con lo que aplicará el cdf bajo nulo como una transformación a la distribución (que dará la distribución del valor p bajo La alternativa específica). Cuando piensas en estos términos, a menudo no es difícil ver por qué el comportamiento es como es.
El problema, como lo veo, no es tanto que haya algún problema inherente con los valores p o las pruebas de hipótesis, sino más bien si la prueba de hipótesis es una buena herramienta para su problema particular o si algo más sería más apropiado en cualquier caso particular, esa no es una situación para las polémicas generales sino una consideración cuidadosa del tipo de preguntas que abordan las pruebas de hipótesis y las necesidades particulares de su circunstancia. Desafortunadamente, rara vez se hace una cuidadosa consideración de estos problemas; con demasiada frecuencia se ve una pregunta sobre el formulario "¿Qué prueba utilizo para estos datos?" sin ninguna consideración de cuál podría ser la cuestión de interés, y mucho menos si alguna prueba de hipótesis es una buena manera de abordarla.
Una dificultad es que las pruebas de hipótesis son ampliamente incomprendidas y mal utilizadas; la gente suele pensar que nos dicen cosas que no dicen. El valor p es posiblemente la cosa más incomprendida de las pruebas de hipótesis.