Lo que llamamos P-hacking es aplicar una prueba de significación varias veces y solo informar los resultados de significación. Si esto es bueno o malo depende de la situación.
Para explicar, pensemos en los efectos verdaderos en términos bayesianos, en lugar de hipótesis nulas y alternativas. Mientras creamos que nuestros efectos de interés provienen de una distribución continua, entonces sabemos la hipótesis nula es falsa. Sin embargo, en el caso de una prueba de dos lados, no sabemos si es positiva o negativa. Bajo esta luz, podemos pensar en los valores p para las pruebas de dos lados como una medida de cuán fuerte es la evidencia de que nuestra estimación tiene la dirección correcta (es decir, efecto positivo o negativo).
p<α
Ahora, considere lo que sucede cuando sigue regresando para obtener más datos. Cada vez que obtiene más datos, su probabilidad de obtener la dirección correcta condicional a datos suficientes solo aumenta. Entonces, en este escenario, debemos darnos cuenta de que al obtener más datos, aunque de hecho estamos aumentando la probabilidad de un error de tipo I, también estamos reduciendo la probabilidad de concluir erróneamente la dirección incorrecta.
Tome esto en contraste con el abuso más típico de la piratería P; probamos cientos de tamaños de efectos que tienen una buena probabilidad de ser muy pequeños y solo informamos los significativos. Tenga en cuenta que en este caso, si todos los efectos son pequeños, tenemos una probabilidad cercana al 50% de equivocarse cuando declaramos su importancia.
Por supuesto, los valores p producidos a partir de esta duplicación de datos aún deberían venir con un grano de sal. Si bien, en general, no debería tener un problema con las personas que recopilan más datos para estar más seguros sobre el tamaño de un efecto, esto podría abusarse de otras maneras. Por ejemplo, un IP inteligente podría darse cuenta de que, en lugar de recopilar los 100 puntos de datos a la vez, podría ahorrar un montón de dinero y aumentar la potencia al recopilar primero 50 puntos de datos, analizar los datos y luego recopilar los siguientes 50 si no es significativo . En este escenario, aumentan la probabilidad de que la dirección del efecto sea incorrecta condicional a la declaración de significancia, ya que es más probable que obtengan la dirección del efecto incorrecta con 50 puntos de datos que con 100 puntos de datos.
Y finalmente, considere las implicaciones de no obtener más datos cuando tenemos un resultado insignificante. Eso implicaría nunca recopilar más información sobre el tema, lo que realmente no hará avanzar la ciencia, ¿verdad? Un estudio de baja potencia mataría un campo entero.