¿Cómo se formaliza una distribución de probabilidad previa? ¿Existen reglas generales o consejos que se deben usar?

Si bien me gusta pensar que tengo una buena comprensión del concepto de información previa en el análisis estadístico bayesiano y la toma de decisiones, a menudo tengo problemas para comprender mi aplicación. Tengo en mente un par de situaciones que ejemplifican mis luchas, y siento que no se abordan adecuadamente en los libros de texto estadísticos bayesianos que he leído hasta ahora:

Digamos que realicé una encuesta hace unos años que dice que el 68% de las personas estarían interesadas en comprar un producto ACME. Decido ejecutar la encuesta nuevamente. Si bien usaré el mismo tamaño de muestra que la última vez (por ejemplo, n = 400), es probable que las opiniones de las personas hayan cambiado desde entonces. Sin embargo, si lo uso como anterior con una distribución beta en la que 272 de los 400 encuestados respondieron "sí", estaría dando el mismo peso a la encuesta que realicé hace unos años y la que estaría ejecutando ahora. ¿Existe una regla general para establecer la mayor incertidumbre que me gustaría colocar sobre el anterior en virtud de que esos datos tienen algunos años? Entiendo que puedo reducir el previo de 272/400 a, digamos, 136/200, pero esto se siente extremadamente arbitrario, y me pregunto si hay alguna forma de justificación, tal vez en la literatura,

Para otro ejemplo, digamos que estamos a punto de realizar un ensayo clínico. Antes de lanzar el ensayo, realizamos algunas investigaciones secundarias que podríamos utilizar como información previa, incluidas opiniones de expertos, resultados de ensayos clínicos anteriores (de diversa relevancia), otros hechos científicos básicos, etc. ¿Cómo se puede combinar ese espectro de información? (algunos de los cuales no son de naturaleza cuantitativa) a una distribución de probabilidad previa? ¿Es solo el caso de tomar una decisión sobre qué familia elegir y hacer que sea lo suficientemente difusa como para garantizar que los datos lo sobrecarguen, o hay mucho trabajo para establecer una distribución previa bastante informativa?

— Phil
fuente

Ver stats.stackexchange.com/questions/1/…

— Tim

Su idea de tratar su información previa de 272 éxitos en 400 intentos tiene una justificación bayesiana bastante sólida.

El problema con el que se enfrenta, como reconoció, es el de estimar una probabilidad de éxito de un experimento de Bernoulli. La distribución Beta es el correspondiente "conjugado previo". Dichos anteriores conjugados disfrutan de la "interpretación ficticia de la muestra": $\theta$

La versión beta anterior es Esto se puede interpretar como la información contenida en una muestra de tamaño (en , ya que no necesita ser entero, por supuesto ) con éxitos: Por lo tanto, si toma y , esto corresponde a los parámetros anteriores y

π (θ) = \frac{Γ (α_{0 0} + β_{0 0})}{Γ (α_{0 0}) Γ (β_{0 0})} θ^{α_{0 0} - 1} (1 - θ)^{β_{0 0} - 1}

$\pi(\theta)=\frac{\Gamma(\alpha_0+\beta_0)}{\Gamma(\alpha_0)\Gamma(\beta_0)}\theta^{\alpha_0-1}(1-\theta)^{\beta_0-1}$

\underline{n} = α_{0} + β_{0} - 2

$\underline{n}=\alpha_0+\beta_0-2$

\underline{n}

$\underline{n}$

α_{0} - 1

$\alpha_0-1$

π (θ) = \frac{Γ (α_{0 0} + β_{0 0})}{Γ (α_{0 0}) Γ (β_{0 0})} θ^{α_{0 0} - 1} (1 - θ)^{\underset{_ _}{norte} - (α_{0 0} - 1)}

$\pi(\theta)=\frac{\Gamma(\alpha_0+\beta_0)}{\Gamma(\alpha_0)\Gamma(\beta_0)}\theta^{\alpha_0-1}(1-\theta)^{\underline{n}-(\alpha_0-1)}$

α_{0} + β_{0} - 2 = 400

$\alpha_0+\beta_0-2=400$

α_{0} - 1 = 272

$\alpha_0-1=272$

α_{0} = 273

$\alpha_0=273$

β_{0} = 129

$\beta_0=129$ . "Reducir a la mitad" la muestra conduciría a parámetros anteriores y . Ahora, recuerde que la media anterior y la varianza previa de la distribución beta están dadas por Reducir a la mitad la muestra mantiene la media anterior (casi) donde está:

α_{0} = 137

$\alpha_0=137$

β_{0} = 65

$\beta_0=65$

μ = \frac{α}{α + β} y σ^{2} = \frac{α β}{(α + β)^{2} (α + β + 1)}

$\mu=\frac{\alpha}{\alpha+\beta}\qquad\text{and}\qquad\sigma^2=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

alpha01 <- 273
beta01 <- 129
(mean01 <- alpha01/(alpha01+beta01))

alpha02 <- 137
beta02 <- 65
(mean02 <- alpha02/(alpha02+beta02))

pero aumenta la varianza anterior de

(priorvariance01 <- (alpha01*beta01)/((alpha01+beta01)^2*(alpha01+beta01+1)))
[1] 0.0005407484

(priorvariance02 <- (alpha02*beta02)/((alpha02+beta02)^2*(alpha02+beta02+1)))
[1] 0.001075066

como se desee.

— Christoph Hanck
fuente