Desde mi perspectiva, el problema se reduce a lo que realmente significa llevar a cabo una prueba de significación. La prueba de significación se ideó como un medio para tomar la decisión de rechazar la hipótesis nula o no rechazarla. El propio Fisher introdujo la infame regla 0.05 para tomar esa decisión (arbitraria).
Básicamente, la lógica de las pruebas de significación es que el usuario tiene que especificar un nivel alfa para rechazar la hipótesis nula (convencionalmente 0.05) antes de recopilar los datos . Después de completar la prueba de significación, el usuario rechaza el valor nulo si el valor p es menor que el nivel alfa (o no lo rechaza de otra manera).
La razón por la que no puede declarar que un efecto es altamente significativo (digamos, en el nivel 0.001) es porque no puede encontrar evidencia más fuerte de lo que se propuso encontrar. Entonces, si establece su nivel alfa en 0.05 antes de la prueba, solo puede encontrar evidencia en el nivel 0.05, independientemente de cuán pequeños sean sus valores de p. Del mismo modo, hablar de efectos que son "algo significativos" o "aproximados a la importancia" tampoco tiene mucho sentido porque eligió este criterio arbitrario de 0.05. Si interpreta la lógica de las pruebas de significación de manera muy literal, cualquier cosa mayor que 0.05 no es significativa.
Estoy de acuerdo en que términos como "acercamiento a la importancia" a menudo se utilizan para mejorar las perspectivas de publicación. Sin embargo, no creo que se pueda culpar a los autores de eso porque la cultura de publicación actual en algunas ciencias todavía depende en gran medida del "santo grial" de 0.05.
Algunos de estos temas se discuten en:
Gigerenzer, G. (2004). Estadísticas sin sentido. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Evidencia estadística: un paradigma de probabilidad (Vol. 71). Prensa CRC.