Lista de situaciones en las que un enfoque bayesiano es más simple, más práctico o más conveniente

63

Ha habido muchos debates dentro de las estadísticas entre bayesianos y frecuentistas. En general, me parece bastante desagradable (aunque creo que se ha calmado). Por otro lado, he conocido a varias personas que tienen una visión completamente pragmática del tema, diciendo que a veces es más conveniente realizar un análisis frecuentista y, a veces, es más fácil ejecutar un análisis bayesiano. Esta perspectiva me parece práctica y refrescante.

Se me ocurre que sería útil tener una lista de tales casos. Debido a que hay demasiados análisis estadísticos, y porque supongo que normalmente es más práctico llevar a cabo un análisis frecuentista (codificar una prueba t en WinBUGS es mucho más complicado que la llamada de función única requerida para realizar la versión basada en frecuentista en R , por ejemplo), sería bueno tener una lista de las situaciones en las que un enfoque bayesiano es más simple, más práctico y / o más conveniente que un enfoque frecuentista.

(Dos respuestas que no me interesan son: 'siempre' y 'nunca'. Entiendo que la gente tiene opiniones firmes, pero por favor no las exprese aquí. Si este hilo se convierte en un lugar para pequeñas disputas, probablemente eliminaré Mi objetivo aquí es desarrollar un recurso que sea útil para un analista con un trabajo que hacer, no un hacha para moler).

Las personas pueden sugerir más de un caso, pero utilice respuestas separadas para hacerlo, de modo que cada situación pueda ser evaluada (votada / discutida) individualmente. Las respuestas deben enumerar: (1) cuál es la naturaleza de la situación y (2) por qué el enfoque bayesiano es más simple en este caso. Algún código (digamos, en WinBUGS) que demuestre cómo se haría el análisis y por qué la versión bayesiana es más práctica sería ideal, pero espero que sea demasiado engorroso. Si se puede hacer fácilmente, lo agradecería, pero incluya por qué de cualquier manera.

Finalmente, reconozco que no he definido lo que significa que un enfoque sea "más simple" que otro. La verdad es que no estoy completamente seguro de lo que debería significar que un enfoque sea más práctico que el otro. Estoy abierto a diferentes sugerencias, solo especifique su interpretación cuando explique por qué un análisis bayesiano es más conveniente en la situación que discute.

bayesian frequentist

— gung - Restablece a Monica
fuente

77

El modelado multinivel es definitivamente más fácil para el bayesiano, especialmente conceptual.

— probabilidadislogic

Es posible que al interlocutor no le guste esto, pero no hay forma de moverse pensando y entendiendo realmente qué están haciendo realmente los métodos de inferencia o de modelado, y cómo interpretarlos. Tiene poco sentido buscar cuál es más simple cuando están logrando diferentes objetivos.

1

Estoy bien con el consejo de pensar claramente sobre lo que está tratando de hacer y cómo funcionan los análisis, @Mayo. Yo mismo he dado ese consejo ;-). También estoy familiarizado con la idea de que los análisis bayesianos y frecuentes hacen suposiciones diferentes sobre la naturaleza de la probabilidad. Sin embargo, como señalo en la pregunta, he conocido a varias personas (es decir, doctorados en estadísticas que entienden los problemas bastante bien) que dicen que hay momentos en que son lo suficientemente similares y que 1 es más conveniente. Las otras respuestas demuestran que es posible dar tales ejemplos. Me encantaría ver cualquier caso adicional que conozcas.

— gung - Restablece a Monica

Es curioso: cuando dices que "el análisis frecuente es más práctico", ¿estás hablando del software, como que usar lm ()R es más fácil de usar? O hay algo más?

— chanceislogic

@probabilityislogic, esencialmente. Mi ejemplo es usar t.test()en lugar de codificar una prueba t bayesiana en WinBUGS, que requiere mucho más código. Quizás en lugar de "más práctico", debería haber dicho 'más fácil'.

— gung - Restablecer Monica

26

(1) En contextos donde la función de probabilidad es intratable (al menos numéricamente), el uso del enfoque bayesiano, por medio del cálculo bayesiano aproximado (ABC), ha ganado terreno sobre algunos competidores frecuentistas, como las probabilidades compuestas ( 1 , 2 ) o la probabilidad empírica porque tiende a ser más fácil de implementar (no necesariamente correcta). Debido a esto, el uso de ABC se ha vuelto popular en áreas donde es común encontrar probabilidades intratables como la biología , la genética y la ecología . Aquí, podríamos mencionar un océano de ejemplos.

Algunos ejemplos de probabilidades intratables son

Procesos superpuestos. Cox y Smith (1954) propusieron un modelo en el contexto de la neurofisiología que consiste en procesos de puntos superpuestos. Por ejemplo, considere los tiempos entre los pulsos eléctricos observados en alguna parte del cerebro que fueron emitidos por varias neuronas durante un cierto período. Esta muestra contiene observaciones no iid que dificultan la construcción de la probabilidad correspondiente, lo que complica la estimación de los parámetros correspondientes. Recientemente se propuso una solución (parcial) frecuentista en este documento . La implementación del enfoque ABC también se ha estudiado recientemente y se puede encontrar aquí . $N$
La genética de poblaciones es otro ejemplo de modelos que conducen a probabilidades intratables. En este caso, la intratabilidad tiene una naturaleza diferente: la probabilidad se expresa en términos de una integral multidimensional (a veces de dimensión ) que tomaría un par de décadas para evaluarla en un solo punto. Esta área es probablemente la sede de ABC. $1000+$

— usuario10525
fuente

1

Estos son geniales! ¿Puedes dividirlos en 2 respuestas (para que pueda votarte dos veces ;-), y proporcionar solo un ejemplo típico (de juguete)? Gracias.

— gung - Restablece a Monica

2

@Procrastinator ¿Podría explicar un poco por qué en algunos contextos la probabilidad es intratable? Dado que usted menciona la biología, la genética y la ecología, imagino que está vinculada a las complejas dependencias entre los parámetros. Creo que esto sería particularmente útil para las personas que no están familiarizadas con el análisis bayesiano (del cual yo estoy), especialmente dado que la página de wikipedia en ABC a la que enlaza no proporciona mucho contexto. Gracias

— Antoine Vernet

15

A medida que el software bayesiano mejora, el tema "más fácil de aplicar" se vuelve discutible. El software bayesiano se está empaquetando en formas cada vez más fáciles. Un caso reciente es el de un artículo titulado, la estimación bayesiana reemplaza la prueba t . El siguiente sitio web proporciona enlaces al artículo y al software: http://www.indiana.edu/~kruschke/BEST/

Un extracto de la introducción del artículo:

... algunas personas tienen la impresión de que las conclusiones de NHST y los métodos bayesianos tienden a coincidir en situaciones simples, como la comparación de dos grupos: "Por lo tanto, si su pregunta principal de interés puede expresarse simplemente en una forma adecuada para la prueba, diga , realmente no hay necesidad de intentar aplicar toda la maquinaria bayesiana a un problema tan simple "(Brooks, 2003, p. 2694). Este artículo muestra, por el contrario, que la estimación del parámetro bayesiano proporciona información mucho más rica que la prueba t NHST y que sus conclusiones pueden diferir de las de la prueba t NHST. Las decisiones basadas en la estimación de parámetros bayesianos están mejor fundamentadas que las basadas en NHST, independientemente de si las decisiones derivadas de los dos métodos están de acuerdo o no.

— John K. Kruschke
fuente

10

Supongo que su respuesta es siempre o " siempre será pronto". Esta es la respuesta de un partisano bayesiano.

— gung - Restablece a Monica

3

Y aquí está una implementación de JavaScript en línea de Kruschke's BEST. Análisis bayesiano en el navegador :) sumsar.net/best_online

— Rasmus Bååth

13

(2) Modelos de resistencia al estrés. El uso de modelos de resistencia al estrés es popular en confiabilidad. La idea básica consiste en estimar el parámetro donde e son variables aleatorias. Curiosamente, el cálculo de la probabilidad de perfil de este parámetro es bastante difícil en general (incluso numéricamente) excepto por algunos ejemplos de juguetes, como el caso exponencial o normal. Por esta razón, las soluciones frecuentas ad hoc deben considerarse, como la probabilidad empírica ( ver $\theta=P(X<Y)$ $X$ $Y$ ) o intervalos de confianza cuya construcción también es difícil en un marco general. Por otro lado, el uso de un enfoque bayesiano es muy simple dado que si tiene una muestra de la distribución posterior de los parámetros de las distribuciones de e , puede transformarlos fácilmente en una muestra de la parte posterior de . $X$ $Y$ $\theta$

Sea una variable aleatoria con densidad y distribución dada respectivamente por y . Del mismo modo, sea una variable aleatoria con densidad y distribución dada respectivamente por y . Entonces $X$ $f(x;\xi_1)$ $F(x;\xi_1)$ $Y$ $g(y;\xi_2)$ $G(y;\xi_2)$

\begin{matrix} (⋆) & θ = \int F (y; ξ_{1}) g (y; ξ_{2}) d y . \end{matrix}

$\theta = \int F(y;\xi_1)g(y;\xi_2)dy. \tag{$\star$}$

Tenga en cuenta que este parámetro es una función de los parámetros . En los casos exponenciales y normales, esto puede expresarse en forma cerrada ( ver ), pero este no es el caso en general (ver este artículo para un ejemplo). Esto complica el cálculo de la probabilidad de perfil de y, en consecuencia, la inferencia de intervalo clásica en este parámetro. El problema principal se puede resumir de la siguiente manera: "El parámetro de interés es una función desconocida / complicada de los parámetros del modelo y, por lo tanto, no podemos encontrar una reparametrización que involucre el parámetro de interés". $(\xi_1,\xi_2)$ $\theta$

Desde una perspectiva bayesiana, esto no es un problema dado que si tenemos una muestra de la distribución posterior de , simplemente podemos ingresar estas muestras en para obtener una muestra de la posterior de y proporcionar inferencia de intervalo para este parámetro. $(\xi_1,\xi_2)$ $(\star)$ $\theta$

— usuario10525
fuente

44

+1 a ambas respuestas: estos son ejemplos interesantes. Sin embargo, parece suponer que la solución frecuentista debe basarse en la probabilidad, ignorando aparentemente los métodos no paramétricos. En este caso particular, los métodos frecuentadores no paramétricos del Capítulo 5 en el libro al que se vinculó me parecen al menos tan fáciles de usar como los métodos bayesianos.

— MånsT

@ MånsT Buen punto. De hecho, esta respuesta se centra en la inferencia bayesiana versus la inferencia basada en la probabilidad. Hace un tiempo escribí una respuesta sobre una solución no paramétrica de este problema que, como usted señala, es tan fácil como el enfoque bayesiano.

@ MånsT & Procrastinator, también había votado a favor. No me queda claro qué significa "más fácil" en el contexto de esta pregunta / los comentarios que me hicieron a lo largo de los años que lo motivaron. En su mayoría, quería excluir las respuestas en las que el analista tiene una posición teórica tal que siempre es mejor por razones ajenas a la situación. Tal posición es defendible, por supuesto, y hay muchos lugares en Internet para ver tales argumentos (incluidos algunos en CV), pero b / c de eso pensé que sería interesante tener un lugar donde las personas enumeren los casos donde usaría el otro y por qué.

— gung - Restablece a Monica

13

Estoy entrenado en estadísticas frecuentistas (econometría en realidad), pero nunca he tenido una postura de confrontación hacia el enfoque bayesiano, ya que mi punto de vista es que la fuente filosófica de esta batalla "épica" estuvo fundamentalmente equivocada desde el principio (he transmitido mis puntos de vista aquí ). De hecho, planeo entrenarme también en el enfoque bayesiano en el futuro inmediato.

¿Por qué? Debido a que uno de los aspectos de la estadística frecuentista que más me fascina como un esfuerzo matemático y conceptual, al mismo tiempo, me preocupa más: los asintóticos del tamaño de la muestra. Al menos en econometría, casi noEl artículo serio de hoy afirma que cualquiera de los diversos estimadores que se aplican generalmente en la econometría frecuentista posee cualquiera de las propiedades deseables de "muestra pequeña" que quisiéramos de un estimador. Todos se basan en propiedades asintóticas para justificar su uso. La mayoría de las pruebas utilizadas tienen propiedades deseables solo asintóticamente ... Pero ya no estamos en "z-land / t-land": todo el aparato sofisticado (y formidable) de la estimación e inferencia frecuentista moderna también es altamente idiosincrásico, lo que significa que a veces, se necesita una muestra de laaaaaaaaaaaarge para que estas preciosas propiedades asintóticas emerjan y afecten favorablemente las estimaciones derivadas de los estimadores, como lo han demostrado varias simulaciones. Es decir, decenas de miles de observaciones, que aunque comienzan a estar disponibles para algunos campos de actividad económica (como el mercado laboral o financiero), hay otras (como la macroeconomía) en las que nunca lo harán (al menos durante mi vida). Y eso me molesta bastante, porque hace que los resultados derivados realmenteincierto (no solo estocástico).

La econometría bayesiana para muestras pequeñas no se basa en resultados asintóticos. "¡Pero confían en el previo subjetivo !" es la respuesta habitual ... a lo cual, mi respuesta simple y práctica, es la siguiente: "si el fenómeno es antiguo y se estudió antes, lo anterior se puede estimar a partir de datos pasados. Si el fenómeno es nuevo , por qué más si no por argumentos subjetivos podemos comenzar la discusión al respecto ?

— Alecos Papadopoulos
fuente

55

Esta es una perspectiva que vale la pena, pero tenga en cuenta que existen enfoques frecuentistas que no dependen tanto de los asintóticos, como las simulaciones de Monte Carlo, el arranque y las pruebas de permutación.

— gung - Restablece a Monica

1

¿Y si uno trata de obtener lo mejor de ambos mundos? Un intento: Bartels, Christian (2017): Uso de conocimientos previos en pruebas frecuentistas. higo compartido. doi.org/10.6084/m9.figshare.4819597.v3 Recuperado: 17 18, 10 de mayo de 2017 (GMT)

— usuario36160

13

Esta es una respuesta tardía, sin embargo, espero que agregue algo. He recibido capacitación en telecomunicaciones, donde la mayoría de las veces usamos el enfoque bayesiano.

Aquí hay un ejemplo simple: suponga que puede transmitir cuatro señales posibles de +5, +2.5, -2.5 y -5 voltios. Una de las señales de este conjunto se transmite, pero la señal está corrompida por el ruido gaussiano cuando llega al final de la recepción. En la práctica, la señal también se atenúa, pero eliminaremos este problema por simplicidad. La pregunta es: si está en el extremo receptor, ¿cómo diseña un detector que le indique cuál de estas señales se transmitió originalmente?

Este problema obviamente reside en el dominio de la prueba de hipótesis. Sin embargo, no puede usar valores p, ya que las pruebas de significancia pueden rechazar potencialmente las cuatro hipótesis posibles, y usted sabe que una de estas señales se transmitió realmente. Podemos utilizar el método de Neyman-Pearson para diseñar un detector en principio, pero este método funciona mejor para hipótesis binarias. Para múltiples hipótesis, se vuelve demasiado torpe cuando necesita lidiar con un número de restricciones para las probabilidades de falsa alarma. Una alternativa simple es la prueba de hipótesis bayesiana. Cualquiera de estas señales podría haber sido elegida para ser transmitida, por lo que la anterior es equiprobable. En tales casos equiprobables, el método se reduce a elegir la señal con la máxima probabilidad. Este método puede tener una buena interpretación geométrica: elija la señal que esté más cerca de la señal recibida. Esto también conduce a la partición del espacio de decisión en varias regiones de decisión, de modo que si la señal recibida cayera dentro de una región particular, entonces se decide que la hipótesis asociada con esa región de decisión es verdadera. Por lo tanto, el diseño de un detector se hace fácil.

— revs Jyaure
fuente

44

Gracias por compartir tu experiencia con nosotros. ¡Bienvenido a nuestro sitio!

— whuber

4

Las llamadas pruebas estadísticas 'frequentistas' son típicamente equivalentes al enfoque bayesiano en principio más complejo bajo ciertos supuestos. Cuando estas suposiciones son aplicables, cualquiera de los dos enfoques dará el mismo resultado, por lo que es seguro usar la prueba Frequentist más fácil de aplicar. El enfoque bayesiano es más seguro en general porque hace explícitos los supuestos, pero si sabe lo que está haciendo, la prueba Frecuentista suele ser tan buena como un enfoque bayesiano y, por lo general, es más fácil de aplicar.

— Bogdanovist
fuente

1

Gracias. Usted observa que las pruebas frecuentes son "típicamente más fáciles de aplicar". ¿Sabe de una situación específica cuando este no es el caso (si F es "típicamente" más fácil, debe haber algunos de estos casos). Por el momento, podemos dejar de lado las cuestiones sobre qué enfoque sería "más seguro" y concentrarnos en la parte más fácil de aplicar .

— gung - Restablece a Monica

4

(Intentaré lo que pensé que sería el tipo de respuesta más típico).

Supongamos que tiene una situación en la que hay varias variables y una respuesta, y sabe mucho sobre cómo una de las variables debería estar relacionada con la respuesta, pero no tanto sobre las demás.

En una situación como esta, si tuviera que ejecutar un análisis de regresión múltiple estándar, ese conocimiento previo no se tendría en cuenta. Posteriormente, se podría realizar un metanálisis, que podría ser interesante para arrojar luz sobre si el resultado actual era consistente con los otros hallazgos y podría permitir una estimación un poco más precisa (al incluir el conocimiento previo en ese punto). Pero ese enfoque no permitiría que lo que se sabía sobre esa variable influyera en las estimaciones de las otras variables.

Otra opción es que sería posible codificar y optimizar su propia función que corrige la relación con la variable en cuestión y encuentra valores de parámetros para las otras variables que maximizan la probabilidad de los datos dada esa restricción. El problema aquí es que, si bien la primera opción no restringe adecuadamente la estimación beta, este enfoque la sobreexige.

Puede ser posible manipular un algoritmo que aborde la situación de manera más apropiada, situaciones como esta parecen ser candidatos ideales para el análisis bayesiano. Cualquiera que no se oponga dogmáticamente al enfoque bayesiano debería estar dispuesto a probarlo en casos como este.

— gung - Restablece a Monica
fuente

2

Un área de investigación en la que los métodos bayesianos son extremadamente sencillos y los métodos frequentistas son extremadamente difíciles de seguir es el del diseño óptimo .

En una versión simple del problema, le gustaría estimar un solo coeficiente de regresión de una regresión logística de la manera más eficiente posible. Se le permite tomar una sola muestra con igual a lo que desee, actualice su estimación para y luego elija su próxima , etc. hasta su estimación para cumple con cierto nivel de precisión. $x^{(1)}$ $\beta$ $x^{(2)}$ $\beta$

La parte difícil es que el verdadero valor de determinará cuál es la elección óptima de . Puede considerar usar la estimación actual de de con el entendimiento de que está ignorando el error en . Como tal, puede obtener una opción quizás ligeramente subóptima de dada una estimación razonable de . $\beta$ $x^{(i)}$ $\hat \beta$ $\beta$ $\hat \beta$ $x^{(i)}$ $\beta$

¿Pero qué pasa cuando comienzas por primera vez? No tiene una estimación frecuente de , porque no tiene datos . Por lo tanto, deberá recopilar algunos datos (definitivamente de una manera muy subóptima), sin mucha teoría orientadora que le indique qué elegir. E incluso después de algunas elecciones, el efecto Hauck-Donner puede evitar que tenga una estimación definida de . Si lees sobre la literatura frequentista sobre cómo lidiar con esto, básicamente se trata de "elegir aleatoriamente 's hasta que exista un valor de tal que haya 0 y 1 por encima y por debajo de ese punto" (lo que significa Hauck-Donner el efecto no ocurrirá). $\beta$ $\beta$ $x$ $x$

Desde la perspectiva bayesiana, este problema es muy fácil.

Comience su creencia previa sobre . $\beta$
Encuentre la que tendrá el máximo efecto en la distribución posterior $x$
Muestra usando el valor de elegido de (2) y actualiza tu posterior $x$
Repita los pasos 2 y 3 hasta alcanzar la precisión deseada.

La literatura frequentista se inclinará hacia atrás para intentar encontrar valores razonables de para los que con suerte pueda tomar muestras y evitar el efecto Hauck-Donner para que pueda comenzar a tomar muestras subóptimas ... mientras que el método Bayesiano es todo muy fácil y tiene en cuenta la incertidumbre en el parámetro de interés. $x$

— Cliff AB
fuente

2

Quizás uno de los casos más directos y comunes en los que el enfoque bayesiano es más fácil es la cuantificación de la incertidumbre de los parámetros.

En esta respuesta, no me refiero a la interpretación de los intervalos de confianza frente a los intervalos creíbles. Por el momento, supongamos que un usuario está bien con cualquiera de los métodos.

Dicho esto, en el marco bayesiano, es sencillo; Es la varianza marginal de la parte posterior para cualquier parámetro individual de interés. Suponiendo que pueda muestrear desde la parte posterior, simplemente tome sus muestras y calcule sus variaciones. ¡Hecho!

En el caso de Frequentist, esto suele ser sencillo en algunos casos y es un verdadero dolor cuando no lo es. Si tenemos una gran cantidad de muestras versus una pequeña cantidad de parámetros (y quién sabe realmente qué tan grande es lo suficientemente grande), podemos usar la teoría MLE para derivar los IC. Sin embargo, esos criterios no siempre se cumplen, especialmente para casos interesantes (es decir, modelos de efectos mixtos). ¡A veces podemos usar bootstrapping, pero a veces no podemos! En los casos en que no podemos, puede ser muy, muy difícil obtener estimaciones de error, y a menudo requieren un poco de inteligencia (es decir, la fórmula de Greenwood para derivar SE's para las curvas de Kaplan Meier). ¡"Usar algo de inteligencia" no siempre es una receta confiable!

— Acantilado AB
fuente