Obviamente, esto sería una pesadilla absoluta en la práctica, pero supongamos que se puede hacer: nombramos un Sultán Estadístico y todos los que ejecutan una prueba de hipótesis informan sus valores crudos a este déspota. Realiza algún tipo de corrección global (literalmente) de comparaciones múltiples y responde con las versiones corregidas.pags
¿Sería el comienzo de una era dorada de la ciencia y la razón? No, probablemente no.
tH0 0:HUNA: Los grupos tienen la misma media. Los grupos tienen diferentes medios.
H0 0H0 0la hipótesis es, en cierto sentido, "aburrida", y los investigadores suelen preocuparse por evitar una situación de "falso positivo" en la que afirman haber encontrado una diferencia entre los grupos en los que realmente no existe ninguno. Por lo tanto, solo llamamos resultados "significativos" si parecen improbables bajo la hipótesis nula y, por convención, ese umbral de improbabilidad se establece en 5%.
H0 0
Los diversos enfoques de correcciones múltiples están destinados a ayudarlo a volver a una tasa de error nominal que ya ha elegido tolerar para las pruebas individuales. Lo hacen de maneras ligeramente diferentes. Los métodos que controlan la tasa de error familiar , como los procedimientos Bonferroni , Sidak y Holm , dicen "Querías un 5% de posibilidades de cometer un error en una sola prueba, así que nos aseguraremos de que no haya más de un 5 % de probabilidad de cometer errores en todas sus pruebas ". Métodos que controlan la tasa de descubrimiento falsoen su lugar, diga "aparentemente está de acuerdo con estar equivocado hasta el 5% de las veces con una sola prueba, por lo que nos aseguraremos de que no más del 5% de sus 'llamadas' estén mal cuando realice varias pruebas". (¿Ver la diferencia?)
Ahora, suponga que intentó controlar la tasa de error familiar de
todas las pruebas de hipótesis que se hayan ejecutado. Básicamente estás diciendo que quieres una probabilidad <5% de rechazar falsamente cualquier hipótesis nula, alguna vez. Esto establece un umbral imposiblemente estricto y la inferencia sería efectivamente inútil, pero hay un problema aún más apremiante: su corrección global significa que está probando "hipótesis compuestas" absolutamente sin sentido como
H1:El fármaco XYZ cambia el recuento de células T ∧Las uvas crecen mejor en algunos campos ∧... ∧ ... ∧ ... ∧ ... ∧Hombres y mujeres comen diferentes cantidades de helado
Con las correcciones de False Discovery Rate, el problema numérico no es tan grave, pero sigue siendo un desastre filosóficamente. En cambio, tiene sentido definir una "familia" de pruebas relacionadas, como una lista de genes candidatos durante un estudio de genómica, o un conjunto de contenedores de frecuencia de tiempo durante un análisis espectral. Adaptar a su familia a una pregunta específica le permite interpretar su error Tipo I de forma directa. Por ejemplo, podría observar un conjunto de valores p corregidos por FWER a partir de sus propios datos genómicos y decir "Hay una probabilidad <5% de que cualquiera de estos genes sean falsos positivos". Esto es mucho mejor que una garantía nebulosa que cubre inferencias hechas por personas que no le importan sobre temas que no le importan.
La otra cara de esto es que la elección apropiada de "familia" es discutible y un poco subjetiva (¿Todos los genes son una familia o puedo considerar las quinasas?), Pero su problema debería informarlo y no creo que nadie ha abogado seriamente por definir a las familias de manera tan extensa.
¿Qué hay de Bayes?
El análisis bayesiano ofrece una alternativa coherente a este problema, si está dispuesto a alejarse un poco del marco de error Frequentista Tipo I / Tipo II. Comenzamos con un previo sin compromiso sobre ... bueno ... todo. Cada vez que aprendemos algo, esa información se combina con la anterior para generar una distribución posterior, que a su vez se convierte en la anterior para la próxima vez que aprendamos algo. Esto le da una regla de actualización coherente y podría comparar diferentes hipótesis sobre cosas específicas calculando el factor Bayes entre dos hipótesis. Probablemente podría factorizar grandes porciones del modelo, lo que ni siquiera lo haría particularmente oneroso.
Hay un meme persistente ... de que los métodos bayesianos no requieren correcciones de comparaciones múltiples. Desafortunadamente, las probabilidades posteriores son solo otra estadística de prueba para los frecuentistas (es decir, las personas que se preocupan por los errores Tipo I / II). No tienen propiedades especiales que controlen este tipo de errores (¿por qué lo harían?) Por lo tanto, estás de vuelta en territorio intratable, pero quizás en un terreno un poco más basado en principios.
El contraargumento bayesiano es que debemos centrarnos en lo que podemos saber ahora y, por lo tanto, estas tasas de error no son tan importantes.
Sobre la reproducción
Parece estar sugiriendo que la corrección incorrecta de comparaciones múltiples es la razón detrás de muchos resultados incorrectos / no reproducibles. Mi sensación es que otros factores tienen más probabilidades de ser un problema. Una obvia es que la presión para publicar lleva a las personas a evitar experimentos que realmente enfatizan su hipótesis (es decir, un mal diseño experimental).
pags