Creo que es una combinación de todo lo que ya se ha dicho. Estos son datos muy interesantes y no he pensado mirar distribuciones de valores p como esta antes. Si la hipótesis nula es cierta, el valor p sería uniforme. Pero, por supuesto, con los resultados publicados, no veríamos uniformidad por muchas razones.
Hacemos el estudio porque esperamos que la hipótesis nula sea falsa. Por lo tanto, deberíamos obtener resultados significativos la mayoría de las veces.
Si la hipótesis nula fuera falsa solo la mitad del tiempo, no obtendríamos una distribución uniforme de los valores p.
Problema del cajón de archivos: como se mencionó, tendríamos miedo de enviar el documento cuando el valor p no es significativo, por ejemplo, por debajo de 0.05.
Los editores rechazarán el documento debido a resultados no significativos, aunque decidimos enviarlo.
Cuando los resultados estén en el límite, haremos cosas (tal vez no con intención maliciosa) para obtener importancia. (a) redondea a 0.05 cuando el valor p es 0.053, (b) encuentra observaciones que creemos que pueden ser atípicas y después de eliminarlas, el valor p cae por debajo de 0.05.
Espero que esto resuma todo lo que se ha dicho de una manera razonablemente comprensible.
Lo que creo que es interesante es que vemos valores de p entre 0.05 y 0.1. Si las reglas de publicación rechazaran cualquier cosa con valores p superiores a 0.05, la cola derecha se cortaría a 0.05. ¿Realmente se cortó a 0.10? Si es así, quizás algunos autores y algunas revistas aceptarán un nivel de significación de 0.10 pero nada más alto.
Dado que muchos documentos incluyen varios valores p (ajustados para multiplicidad o no) y el documento se acepta porque las pruebas clave fueron significativas, podríamos ver valores p no significativos incluidos en la lista. Esto plantea la pregunta "¿Se incluyeron todos los valores p en el documento incluidos en el histograma?"
Una observación adicional es que hay una tendencia significativa al alza en la frecuencia de los artículos publicados, ya que el valor p se sitúa muy por debajo de 0,05. Tal vez eso sea una indicación de que los autores sobreinterpretan el valor de p pensando que p <0.0001 es mucho más digno de publicación. Creo que el autor ignora o no se da cuenta de que el valor p depende tanto del tamaño de la muestra como de la magnitud del tamaño del efecto.