Esta es una pregunta de discusión sobre la intersección de las estadísticas y otras ciencias. A menudo me enfrento al mismo problema: los investigadores en mi campo tienden a decir que no hay ningún efecto cuando el valor p no es inferior al nivel de significancia. Al principio, a menudo respondía que no es así como funcionan las pruebas de hipótesis. Dada la frecuencia con la que surge esta pregunta, me gustaría discutir este tema con estadísticos más experimentados.
Consideremos un artículo reciente en una revista científica del "mejor grupo editorial" Nature Communications Biology (hay varios ejemplos, pero centrémonos en uno)
Los investigadores interpretan un resultado no estadísticamente significativo de la siguiente manera:
Por lo tanto, la restricción calórica moderada crónica puede prolongar la vida útil y mejorar la salud de un primate, pero afecta la integridad de la materia gris del cerebro sin afectar el rendimiento cognitivo .
Prueba:
Sin embargo, los desempeños en la tarea del laberinto de Barnes no fueron diferentes entre los animales de control y con restricción calórica (LME: F = 0.05, p = 0.82; Fig. 2a). De manera similar, la tarea de alternancia espontánea no reveló ninguna diferencia entre los animales de control y los animales con restricción calórica (LME: F = 1.63, p = 0.22; Fig. 2b).
Los autores también sugieren la explicación de la ausencia del efecto, pero el punto clave no es la explicación sino la afirmación misma. Las parcelas proporcionadas se ven significativamente diferentes "a simple vista" para mí (Figura 2).
Además, los autores ignoran el conocimiento previo:
Se han informado efectos nocivos de la restricción calórica sobre el rendimiento cognitivo para ratas y para funciones cerebrales y emocionales en humanos
Puedo entender la misma afirmación para los grandes tamaños de muestra (sin efecto = sin efecto prácticamente significativo allí), pero en situaciones particulares se usaron pruebas complejas y no es obvio para mí cómo realizar cálculos de potencia.
Preguntas:
¿Pasé por alto algún detalle que haga válidas sus conclusiones?
Teniendo en cuenta la necesidad de informar resultados negativos en la ciencia, cómo demostrar que no es "la ausencia de resultados" (que tenemos con ), sino "resultados negativos (por ejemplo, no hay diferencia entre los grupos)" usando ¿Estadísticas? Entiendo que para tamaños de muestra enormes, incluso pequeñas desviaciones del nulo provocan el rechazo, pero supongamos que tenemos datos ideales y aún necesitamos demostrar que nulo es prácticamente cierto.
¿Deben los estadísticos insistir siempre en conclusiones matemáticamente correctas como "tener este poder no pudimos detectar un efecto de tamaño significativo"? A los investigadores de otros campos les disgustan mucho tales formulaciones de resultados negativos.
Estaría encantado de escuchar cualquier idea sobre el problema y he leído y entendido las preguntas relacionadas en este sitio web. Hay una respuesta clara a las preguntas 2) -3) desde el punto de vista estadístico, pero me gustaría entender cómo deben responderse estas preguntas en caso de diálogo interdisciplinario.
UPD: Creo que un buen ejemplo de resultado negativo es la primera etapa de los ensayos médicos, la seguridad. ¿Cuándo los científicos pueden decidir que el medicamento es seguro? Supongo que comparan dos grupos y hacen estadísticas sobre estos datos. ¿Hay alguna manera de decir que este medicamento es seguro? Cochrane utiliza con precisión "no se encontraron efectos secundarios", pero los médicos dicen que este medicamento es seguro. Cuando se equilibra la precisión y la simplicidad de la descripción y podemos decir "no hay consecuencias para la salud"?