La frase p- hacking (también: "dragado de datos" , "espionaje" o "pesca") se refiere a varios tipos de negligencia estadística en la que los resultados se vuelven estadísticamente significativos de manera artificial. Hay muchas formas de obtener un resultado "más significativo", que incluyen pero no se limitan a:
- solo analizando un subconjunto "interesante" de los datos , en el que se encontró un patrón;
- no ajustarse adecuadamente para las pruebas múltiples , particularmente las pruebas post-hoc y no informar las pruebas realizadas que no fueron significativas;
- probar diferentes pruebas de la misma hipótesis , por ejemplo, tanto una prueba paramétrica como una no paramétrica ( hay un poco de discusión al respecto en este hilo ), pero solo informa la más significativa;
- experimentando con la inclusión / exclusión de puntos de datos , hasta obtener el resultado deseado. Una oportunidad se presenta cuando los "valores atípicos de limpieza de datos", pero también cuando se aplica una definición ambigua (por ejemplo, en un estudio econométrico de "países desarrollados", las diferentes definiciones producen diferentes conjuntos de países) o criterios de inclusión cualitativa (por ejemplo, en un metanálisis , puede ser un argumento finamente equilibrado si la metodología de un estudio en particular es lo suficientemente robusta como para incluirla);
- el ejemplo anterior está relacionado con la detención opcional , es decir, analizar un conjunto de datos y decidir si se recopilan más datos o no, dependiendo de los datos recopilados hasta ahora ("esto es casi significativo, ¡midamos tres estudiantes más!") sin tener en cuenta esto en el analisis;
- experimentación durante el ajuste del modelo , particularmente las covariables para incluir, pero también con respecto a las transformaciones de datos / forma funcional.
Por lo que sabemos p -hacking se puede hacer. A menudo se enumera como uno de los "peligros del valor p " y se mencionó en el informe ASA sobre significación estadística, discutido aquí en Cross Validated , por lo que también sabemos que es una mala cosa. Aunque son obvias algunas motivaciones dudosas y (particularmente en la competencia por la publicación académica) incentivos contraproducentes, sospecho que es difícil entender por qué se hace, ya sea negligencia deliberada o simple ignorancia. Alguien que informa valores p de una regresión gradual (porque encuentra que los procedimientos escalonados "producen buenos modelos", pero no son conscientes de la supuesta p-valores son invalidados) está en el campo de este último, pero el efecto es aún p -hacking bajo el último de mis puntos anteriores.
Ciertamente hay evidencia de que el hackeo p está "ahí afuera", por ejemplo, Head et al (2015) buscan signos reveladores de que infecte la literatura científica, pero ¿cuál es el estado actual de nuestra base de evidencia al respecto? Soy consciente de que el enfoque adoptado por Head et al no estuvo exento de controversia, por lo que el estado actual de la literatura, o el pensamiento general en la comunidad académica, sería interesante. Por ejemplo, ¿tenemos alguna idea sobre:
- ¿Qué tan frecuente es y en qué medida podemos diferenciar su ocurrencia del sesgo de publicación ? (¿Es esta distinción incluso significativa?)
- ¿Es el efecto particularmente agudo en el límite ? ¿Se ven efectos similares en p ≈ 0.01 , por ejemplo, o vemos rangos enteros de valores de p afectados?
- ¿Los patrones en p- hacking varían entre los campos académicos?
- ¿Tenemos alguna idea de cuáles de los mecanismos de p- hacking (algunos de los cuales se enumeran en los puntos anteriores) son los más comunes? ¿Algunas formas han resultado más difíciles de detectar que otras porque están "mejor disfrazadas"?
Referencias
Head, ML, Holman, L., Lanfear, R., Kahn, AT y Jennions, MD (2015). El alcance y las consecuencias de p- hacking en la ciencia . PLoS Biol , 13 (3), e1002106.