Plana, conjugada e hiperpreviales. ¿Qué son?

15

Actualmente estoy leyendo sobre los métodos bayesianos en la evolución molecular de la computación por Yang. En la sección 5.2 se habla de anteriores, y específicamente no informativo / plano / vago / difuso, conjugado e hiperprevio.

Esto podría estar pidiendo una simplificación excesiva, pero, ¿alguien podría explicar simplemente la diferencia entre este tipo de antecedentes y cómo eso afecta el resultado de un análisis / decisiones que tomaría durante el proceso de un análisis bayesiano?

(No soy estadístico y recién estoy comenzando el camino para aprender análisis bayesianos, así que cuanto más en términos simples, mejor)

bayesian prior

— rg255
fuente

15

En pocas palabras, se utiliza un previo plano / no informativo cuando uno tiene poco o ningún conocimiento sobre los datos y, por lo tanto, tiene el menor efecto en los resultados de su análisis (es decir, inferencia posterior).

Las distribuciones conjugadas son aquellas cuyas distribuciones anteriores y posteriores son las mismas, y el prior se llama el conjugado previo. Se favorece por sus conveniencias algebraicas , especialmente cuando la probabilidad tiene una distribución en forma de familia exponencial (gaussiana, beta, etc.). Esto es enormemente beneficioso cuando se realizan simulaciones posteriores con muestreo de Gibbs.

Y, finalmente, imagine que se establece una distribución previa en un parámetro de su modelo, sin embargo, desea agregar otro nivel de complejidad / incertidumbre. A continuación, imponer una distribución a priori de los parámetros de lo anterior, de ahí el nombre antes hiper -antes.

Creo que el análisis de datos bayesianos de Gelman es un gran comienzo para cualquiera que esté interesado en aprender estadísticas bayesianas :)

— Honeychip
fuente

1

En segundo lugar, el respaldo del análisis de datos bayesianos.

— Sycorax dice Reinstate Monica el

14

Al más alto nivel, podemos pensar en todo tipo de antecedentes como la especificación de cierta cantidad de información que el investigador aporta al análisis fuera de los datos en sí: antes de mirar los datos, ¿qué valores de parámetros son más probables?

En las épocas oscuras del análisis bayesiano, cuando los bayesianos luchaban con los frecuentas, se creía que el investigador querría introducir la menor información posible en el análisis a través del análisis previo. Así que hubo mucha investigación y argumentos dedicados a comprender cómo, precisamente, un prior podría ser "no informativo" de esta manera. Hoy, Gelman argumenta en contra de la elección automática de antecedentes no informativos, diciendo en Bayesian Data Analysisque la descripción "no informativo" refleja su actitud hacia el prior, más que cualquier característica matemática "especial" del prior. (Además, hubo una pregunta en la literatura temprana sobre a qué escala un prior no es informativo. No creo que esto sea especialmente importante para su pregunta, pero para un buen ejemplo de este argumento desde una perspectiva frecuentista, vea el comienzo de Gary King, Metodología política unificadora. )

Un previo "plano" indica un previo uniforme donde todos los valores en el rango son igualmente probables. Una vez más, hay argumentos a tener en cuenta sobre si estos son realmente no informativos, ya que especificar que todos los valores son igualmente probables es, de alguna manera, información y puede ser sensible a cómo se parametriza el modelo. Los anteriores planos tienen una larga historia en el análisis bayesiano, que se remonta a Bayes y Laplace.

Un antecedente "vago" es altamente difuso, aunque no necesariamente plano, y expresa que un amplio rango de valores es plausible, en lugar de concentrar la masa de probabilidad en un rango específico. Esencialmente, es un previo con alta varianza (lo que sea que signifique la varianza "alta" en su contexto).

Los anteriores conjugados tienen la característica conveniente de que, cuando se multiplican por la probabilidad apropiada, producen una expresión de forma cerrada. Un ejemplo de esto es la beta anterior con la probabilidad binomial, o la gamma anterior con la probabilidad de Poisson. Hay tablas útiles de estos en todo Internet y Wikipedia. La familia exponencial es extremadamente conveniente a este respecto.

Los anteriores conjugados son a menudo la opción "predeterminada" para algunos problemas debido a sus propiedades convenientes, pero esto no significa necesariamente que sean los "mejores" a menos que el conocimiento previo de uno se pueda expresar a través del conjugado previo. Los avances en la computación significan que la conjugación ya no es tan apreciada como lo era antes (véase el muestreo de Gibbs frente a NUTS), por lo que podemos realizar inferencias más fácilmente con anteriores no conjugados sin muchos problemas.

$N(\mu,\sigma^2)$ $\mu$ $\sigma^2$ $\mu$ $\sigma^2$

— Sycorax dice reinstalar a Mónica
fuente

1

Además, a veces no está claro qué son 'datos' y qué es 'información previa', mire mi respuesta a stats.stackexchange.com/questions/112451/… para ver un ejemplo.

— kjetil b halvorsen