En los últimos años, varios académicos han planteado un problema perjudicial de las pruebas de hipótesis científicas, denominado "grado de libertad del investigador", lo que significa que los científicos deben tomar numerosas decisiones durante su análisis que sesgan hacia la búsqueda con un valor p <5%. Estas opciones ambiguas son, por ejemplo, qué caso se incluirá, qué caso se clasifica como atípico, ejecutando numerosas especificaciones del modelo hasta que aparezca algo, no publique resultados nulos, etc. (El documento que provocó este debate en psicología está aquí , vea un artículo popular de Slate y un debate de seguimiento por Andrew Gelman aquí , y la revista Time también toca este tema aquí ).
Primero , una pregunta de aclaración:
La revista Time escribió:
"Una potencia de 0.8 significa que de diez hipótesis verdaderas probadas, solo dos serán descartadas porque sus efectos no se recogen en los datos".
No estoy seguro de cómo encaja esto en la definición de la función de potencia que encontré en el libro de texto, que es la probabilidad de rechazar el valor nulo en función del parámetro . Con diferentes tenemos diferentes poderes, por lo que no entiendo muy bien la cita anterior.
En segundo lugar , algunas implicaciones de la investigación:
En mi campo de ciencias políticas / economía, los académicos simplemente usan todos los datos disponibles del año del país. Por lo tanto, ¿no deberíamos preocuparnos por la muestra de violín aquí?
¿Se puede solucionar el problema de ejecutar múltiples pruebas pero informar solo un modelo simplemente por el hecho de que alguien más en la disciplina volverá a evaluar su trabajo y lo golpeará inmediatamente por no tener resultados sólidos? Anticipando esto, es más probable que los académicos en mi campo incluyan una
robustness check
sección, donde muestran que las especificaciones de múltiples modelos no cambian el resultado. ¿Es esto suficiente?Andrew Gelman y otros plantean el punto de que, sin importar los datos, siempre sería posible encontrar y publicar algún "patrón" que realmente no existe. Pero esto no debería ser una preocupación, dado el hecho de que cualquier "patrón" empírico debe estar respaldado por una teoría, y las teorías rivales dentro de una disciplina simplemente se involucrarán en un debate / carrera para encontrar qué campo es capaz de encontrar más "patrones" en varios lugares Si un patrón es verdaderamente espurio, la teoría subyacente se eliminará rápidamente cuando no haya un patrón similar en otras muestras / configuraciones. ¿No es así como progresa la ciencia?
Suponiendo que la tendencia actual de las revistas para un resultado nulo realmente florecerá, ¿hay alguna manera de que agreguemos todos los resultados nulos y positivos juntos y hagamos una inferencia sobre la teoría que todos intentan probar?