¿Puedo probar la validez de una información dada anteriormente?

10

Problema

Estoy escribiendo una función R que realiza un análisis bayesiano para estimar una densidad posterior dado un previo y datos informados. Me gustaría que la función envíe una advertencia si el usuario necesita reconsiderar lo anterior.

En esta pregunta, estoy interesado en aprender a evaluar un previo. Las preguntas anteriores han cubierto la mecánica de declarar a los informados anteriores ( aquí y aquí ).

Los siguientes casos pueden requerir que se reevalúe lo anterior:

los datos representan un caso extremo que no se tuvo en cuenta al declarar
errores en los datos (por ejemplo, si los datos están en unidades de g cuando lo anterior está en kg)
se eligió el prior incorrecto de un conjunto de priors disponibles debido a un error en el código

En el primer caso, los anteriores son generalmente lo suficientemente difusos como para que los datos generalmente los abrumen a menos que los valores de los datos se encuentren en un rango no compatible (por ejemplo, <0 para logN o Gamma). Los otros casos son errores o errores.

Preguntas

¿Hay algún problema relacionado con la validez del uso de datos para evaluar un previo?
¿Hay alguna prueba en particular más adecuada para este problema?

Ejemplos

Aquí hay dos conjuntos de datos que no coinciden con un anterior porque son de poblaciones con (rojo) o (azul). $logN(0,1)$ $N(0,5)$ $N(8,0.5)$

Los datos azules podrían ser una combinación válida de datos anteriores + mientras que los datos rojos requerirían una distribución previa que sea compatible con valores negativos.

ingrese la descripción de la imagen aquí

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

distributions probability bayesian

— David LeBauer
fuente

4

Debe tener claro lo que quiere decir con "previo". Por ejemplo, si está interesado en mi creencia anterior sobre la esperanza de vida en el Reino Unido, eso no puede estar equivocado. Es mi creencia! Puede ser inconsistente con los datos observados, pero ese es otro asunto completamente diferente.

También el contexto importa. Por ejemplo, supongamos que estamos interesados en la población de algo. Mi anterior afirma que esta cantidad debe ser estrictamente no negativa. Sin embargo, los datos se han observado con error y tenemos mediciones negativas. En este caso, el prior no es inválido, es solo el prior para el proceso latente.

Para responder tu pregunta,

¿Hay algún problema relacionado con la validez del uso de datos para evaluar un previo?

Un purista argumentaría que no debe usar los datos dos veces. Sin embargo, la persona pragmática simplemente respondería que no había pensado lo suficiente sobre lo anterior en primer lugar.

2 ¿Hay alguna prueba en particular más adecuada para este problema?

Esto realmente depende del modelo en consideración. Supongo que, en el más básico, podría comparar el rango anterior con el rango de datos.

— csgillespie
fuente

Gracias por su respuesta, especialmente para # 1 es útil. Para la prueba, pensé en eso, pero el rango de la mayoría de los anteriores tendrá un límite en , por lo que estaba pensando en quizás comparar los límites de los intervalos cuantiles, por ejemplo, enviar una advertencia si: el 80º cuantil de datos> 99º cuantil del anterior o si: cualquier dato es mayor que el cuantil 100-10e-log (n) th) aunque tendría que jugar con los números para poder captar los errores correctos.

\infty

$\infty$

— David LeBauer

3

Aquí mis dos centavos:

Creo que debería preocuparse por los parámetros anteriores sobre los asociados a las proporciones.
Usted habla de información previa, pero creo que debería advertir a los usuarios acerca de lo que es una información previa razonable no informativa. Quiero decir, a veces una varianza normal con media cero y 100 es bastante poco informativa y a veces es informativa, dependiendo de las escalas utilizadas. Por ejemplo, si está retrocediendo los salarios en alturas (centímetros) que el anterior anterior es bastante informativo. Sin embargo, si retrocede los salarios de registro en alturas (metros), entonces el anterior anterior no es tan informativo.
Si está utilizando un prior que es el resultado de un análisis previo, es decir, el nuevo prior es en realidad un antiguo posterior de un análisis anterior, entonces las cosas son diferentes. Supongo que este es el caso.

— Manoel Galdino
fuente

¿podría por favor aclarar el punto 1? re: punto 2, como se mencionó en el OP, no estoy tan interesado en esta pregunta sobre cómo establecer la prioridad; Punto 3: muchos de los antecedentes informados provienen del análisis de los datos disponibles (ajustando una distribución adecuada a los datos), mientras que otros se basan en el conocimiento experto (generalmente están menos restringidos).

— David LeBauer

Suponga que está ajustando un modelo como: y ~ a + b * x / z. Si no hay restricción en los valores de Z (si pueden ser positivos o negativos), es difícil saber qué esperar de la señal de b. Además, si Z puede estar cerca de cero, entonces b puede ser demasiado bajo o demasiado grande. Esto puede hacer que tu anterior sea irrazonable. Vea esta entrada en el blog de Gelman: stat.columbia.edu/~cook/movabletype/archives/2011/06/…

— Manoel Galdino

# 3: Como se señaló, tenga cuidado al usar los datos dos veces. On thin es un modelo jerárquico, por ejemplo, y otro es elegir un previo que esté de acuerdo con la probabilidad. Más tarde, me preocuparía con ese análisis. Veo la elección de un previo más como una herramienta de regularización.

— Manoel Galdino