¿Por qué los métodos bayesianos no requieren múltiples correcciones de prueba?


22

Andrew Gelman escribió un extenso artículo sobre por qué las pruebas de AB Bayesianas no requieren corrección de hipótesis múltiples: Por qué (generalmente) no tenemos que preocuparnos por las comparaciones múltiples , 2012.

No entiendo bien: ¿por qué los métodos bayesianos no requieren múltiples correcciones de prueba?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Tengo entendido que el enfoque bayesiano que se muestra arriba explica la distribución subyacente compartida por todas las hipótesis (a diferencia de una corrección de Bonferroni frecuente). ¿Es correcto mi razonamiento?



55
Si bien los enlaces de Patrick son muy útiles, sería genial ver una respuesta más autónoma orientada al "crítico científico moderadamente alfabetizado estadísticamente".
conjeturas

Respuestas:


14

Una forma extraña de responder a la pregunta es observar que el método bayesiano no proporciona ninguna forma de hacerlo porque los métodos bayesianos son consistentes con las reglas de evidencia aceptadas y los métodos frecuentistas a menudo están en desacuerdo con ellos. Ejemplos:

  • Con estadísticas frecuentistas, comparar el tratamiento A con B debe penalizar por comparar los tratamientos C y D debido a consideraciones de error tipo I familiares; con Bayesian, la comparación AB es independiente.
  • Para las pruebas frecuentes de secuencial, generalmente se requieren penalizaciones por múltiples miradas a los datos. En un entorno secuencial grupal, una comparación temprana para A vs B debe penalizarse por una comparación posterior que aún no se ha realizado, y una comparación posterior debe penalizarse por una comparación anterior, incluso si la comparación anterior no alteró el curso del proceso. estudiar.

El problema surge de la reversión del flujo de tiempo e información por parte de los frecuentistas, lo que hace que los frecuentadores tengan que considerar qué pudo haber sucedido en lugar de lo que sucedió . En contraste, las evaluaciones bayesianas anclan todas las evaluaciones a la distribución previa, que calibra la evidencia. Por ejemplo, la distribución previa de la diferencia AB calibra todas las evaluaciones futuras de AB y no tiene que considerar el CD.

Con las pruebas secuenciales, existe una gran confusión acerca de cómo ajustar las estimaciones puntuales cuando un experimento se termina temprano usando inferencia frecuentista. En el mundo bayesiano, el "retroceso" previo en cualquier estimación puntual, y la distribución posterior actualizada se aplica a la inferencia en cualquier momento y no requiere consideraciones complejas de espacio muestral.


44
Realmente no entiendo este argumento. Si llevamos a cabo 1000 comparaciones diferentes con un enfoque habitual frecuente, entonces, por supuesto, deberíamos esperar alrededor de 50 significativos con efectos p <0.05 incluso bajo nulo. De ahí las correcciones. Si usamos en su lugar la estimación / prueba bayesiana, que tiene algunos previos (¿alrededor de 0?) Para todas las comparaciones, entonces sí, el anterior reducirá los posteriores hacia cero, pero todavía tendríamos factores posteriores y / o factores de Bayes que varían aleatoriamente y probablemente tendremos algunos casos de 1000 que se verán como efectos "sustanciales", incluso cuando los efectos verdaderos sean todos cero.
ameba dice Reinstate Monica

1
2100021000-1

1
Lo siento, @probabilityislogic, no estoy seguro de haber entendido su punto. Bastante justo sobre "todas las alternativas", pero ¿qué pasa en la práctica? Como dije, estamos estimando 1000 diferencias de grupo (por ejemplo); tenemos un previo en la diferencia grupal; obtenemos 1000 posteriores, 95% de intervalos creíbles, o lo que sea. Luego miraríamos cada intervalo creíble para verificar si está lo suficientemente lejos de cero como para ser un efecto "significativo / sustancial". Si hacemos esto 1000 veces, es probable que tengamos algunos "falsos positivos" en el sentido de que algunos efectos parecerán grandes incluso si los 1000 efectos son de hecho iguales a cero. ¿No?
ameba dice Reinstate Monica

1
1000

1
@probabilityislogic: Bien, estoy absolutamente a favor de los modelos multinivel, a pesar de que no los veo necesariamente como una herramienta bayesiano - modelos mixtos y ANOVA con efectos aleatorios se usan comúnmente junto con pruebas t y tal ...
ameba dice Reinstate Monica

6

Este tipo de modelo jerárquico reduce las estimaciones y reduce el número de afirmaciones falsas en un grado razonable para un número pequeño o moderado de hipótesis. ¿Garantiza algún tipo específico de tasa de error I? No.

Esta sugerencia particular de Gelman (que reconoce el problema de mirar demasiadas cosas diferentes y luego, con demasiada facilidad, concluye erróneamente que ves algo para algunas de ellas, de hecho, uno de sus temas favoritos en su blog) es diferente de la alternativa extrema punto de vista que sostiene que los métodos bayesianos no necesitan dar cuenta de la multiplicidad, porque lo único que importa es su probabilidad (y su anterior).


1
(+1) Según mi conocimiento esperado, en algunos casos (por ejemplo, no dimensional con coincidencia previa), la inferencia bayesiana no ofrece ningún control sobre la tasa de error tipo 1. Por lo tanto, la corrección de pruebas múltiples en la configuración bayesiana no se puede considerar IHMO como una corrección para el error tipo 1.
peuhp


6

Pregunta muy interesante, aquí está mi opinión al respecto.

Se trata de codificar información, luego girar la manivela bayesiana. Parece demasiado bueno para ser verdad, pero ambos son más difíciles de lo que parecen.

Empiezo haciendo la pregunta

¿Qué información se utiliza cuando nos preocupamos por las comparaciones múltiples?

Puedo pensar en algunos: el primero es el "dragado de datos": pruebe "todo" hasta que obtenga suficientes pases / fallas (creo que casi todas las personas capacitadas en estadísticas estarían expuestas a este problema). También tiene menos siniestro, pero esencialmente el mismo "Tengo tantas pruebas que ejecutar, seguramente no todas pueden ser correctas".

Después de pensar en esto, una cosa que noto es que no sueles escuchar mucho sobre hipótesis específicas o comparaciones específicas. Se trata de la "colección" - esto desencadena mi pensamiento hacia la intercambiabilidad - las hipótesis que se comparan son "similares" entre sí de alguna manera. ¿Y cómo codifica la intercambiabilidad en el análisis bayesiano? - hiper-priors, modelos mixtos, efectos aleatorios, etc.

Pero la intercambiabilidad solo te lleva a una parte del camino. ¿Es todo intercambiable? ¿O tiene "escasez", como solo unos pocos coeficientes de regresión distintos de cero con un gran grupo de candidatos. Los modelos mixtos y los efectos aleatorios normalmente distribuidos no funcionan aquí. Se "atascan" entre el ruido de aplastamiento y dejan las señales intactas (p. Ej., En su ejemplo, mantengan iguales los parámetros "verdaderos" locationB y locationC, y establezcan el parámetro "verdadero" locationA arbitrariamente grande o pequeño, y vean fallar el modelo mixto lineal estándar). . Pero se puede arreglar, por ejemplo, con anteriores de "punta y losa" o anteriores de "herradura".

Por lo tanto, realmente se trata más de describir de qué tipo de hipótesis está hablando y obtener tantas características conocidas reflejadas en lo anterior y en la probabilidad. El enfoque de Andrew Gelman es solo una forma de manejar una amplia clase de comparaciones múltiples implícitamente. Al igual que los mínimos cuadrados y las distribuciones normales tienden a funcionar bien en la mayoría de los casos (pero no en todos).

En términos de cómo hace esto, se podría pensar en una persona razonando de la siguiente manera: el grupo A y el grupo B podrían tener la misma media: miré los datos y los medios están "cercanos". Por lo tanto, para obtener una mejor estimación para ambos, debería agrupar los datos, ya que mi pensamiento inicial fue que tienen la misma media. - Si no son lo mismo, los datos proporcionan evidencia de que están "cerca", por lo que agrupar "un poco" no me perjudicará demasiado si mi hipótesis es incorrecta (todos los modelos son incorrectos, algunos son útiles)

Tenga en cuenta que todo lo anterior depende de la premisa inicial "podrían ser lo mismo". Quítelo y no hay justificación para la agrupación. Probablemente también pueda ver una forma de "distribución normal" de pensar en las pruebas. "Cero es más probable", "si no es cero, entonces próximo a cero es lo más probable", "los valores extremos son poco probables". Considere esta alternativa:

  • el grupo A y el grupo B podrían ser iguales, pero también podrían ser drásticamente diferentes

Entonces el argumento sobre la agrupación "un poco" es una muy mala idea. Es mejor elegir la agrupación total o la agrupación cero. Mucho más parecido a un Cauchy, espiga y losa, tipo de situación (mucha masa alrededor de cero y mucha masa para valores extremos)

No es necesario abordar todas las comparaciones múltiples, porque el enfoque bayesiano está incorporando la información que nos lleva a preocuparnos por lo anterior y / o la probabilidad . En cierto sentido, es más un recordatorio para pensar adecuadamente sobre qué información está disponible para usted y asegurarse de haberla incluido en su análisis.


2
l1exp(-El |XEl |)

@StasK - l1 funcionaría mejor, pero como es cóncavo logarítmico tendría problemas con los no ceros dispersos. Los que mencioné son todos log-convexos. Una variante cercana a l1 se generaliza doble Pareto - obtener mediante la adopción de una mezcla de parámetro de escala de Laplace (similar a lasso adaptativa en ML Hablar)
probabilityislogic

5

Primero, según entiendo el modelo que presentó, creo que es un poco diferente a la propuesta de Gelman, que se parece más a:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

En la práctica, al agregar este commonLocationparámetro, las inferencias sobre los parámetros de las 3 distribuciones (aquí las ubicaciones 1, 2 y 3) ya no son independientes entre sí. Además, commonLocationtiende a reducir los valores de expectativa de los parámetros hacia uno central (generalmente estimado). En cierto sentido, funciona como una regularización sobre todas las inferencias, lo que hace que no sea necesaria la corrección para la corrección múltiple (ya que en la práctica realizamos una sola contabilidad de estimación multivariada a partir de la interacción entre cada una de ellas mediante el uso del modelo).

Como se señaló en la otra respuesta, esta corrección no ofrece ningún control sobre el error tipo I, pero en la mayoría de los casos, el método bayesiano no ofrece ningún control incluso en la escala de inferencia única y la corrección para la comparación múltiple debe pensarse de manera diferente en el Bayesiano ajuste.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.