Recomendaría usar una "distribución Beta del segundo tipo" (Beta 2 para abreviar) para una distribución ligeramente informativa , y usar la distribución gamma inversa conjugada si tienes creencias previas fuertes . La razón por la que digo esto es que el previo conjugado no es robusto en el sentido de que, si el previo y los datos entran en conflicto, el anterior tiene una influencia ilimitada en la distribución posterior. Tal comportamiento es lo que yo llamaría "dogmático", y no está justificado por información previa leve .
La propiedad que determina la robustez es el comportamiento de cola del anterior y de la probabilidad. Un artículo muy bueno que describe los detalles técnicos está aquí . Por ejemplo, se puede elegir una probabilidad (digamos una distribución t) tal que como observación (es decir, se vuelve arbitrariamente grande) se descarta del análisis de un parámetro de ubicación (de la misma manera que lo haría hacer intuitivamente con tal observación). La tasa de "descarte" depende de qué tan pesadas sean las colas de la distribución.yyo→ ∞
Aquí se pueden encontrar algunas diapositivas que muestran una aplicación en el contexto de modelado jerárquico (muestra la forma matemática de la distribución Beta 2 ), con un documento aquí .
Si no se encuentra en el contexto de modelado jerárquico, sugeriría comparar el posterior (o cualquier resultado que esté creando) pero use Jeffreys antes para un parámetro de escala, que es dado por . Esto se puede crear como un límite de la densidad Beta 2 ya que ambos parámetros convergen a cero. Para una aproximación, puede usar valores pequeños. Pero trataría de resolver la solución analíticamente si fuera posible (y si no es una solución analítica completa, obtenga la solución analítica tan progresada como sea posible), porque no solo se ahorrará tiempo de cálculo, sino que también También es probable que comprenda mejor lo que sucede en su modelo.p ( σ) ∝ 1σ
Otra alternativa es especificar su información previa en forma de restricciones (media igual a , varianza igual a , IQR igual a , etc. con los valores de especificados por usted mismo), y luego usar el distribución máxima de entropía (busque en cualquier trabajo de Edwin Jaynes o Larry Bretthorst una buena explicación de qué es la máxima entropía y qué no es) con respecto a la "medida invariante" de Jeffreys . METROVyoQ RMETRO, V, IQ Rm ( σ) = 1σ
MaxEnt es la versión "Rolls Royce", mientras que la Beta 2 es más una versión "sedán". La razón de esto es que la distribución MaxEnt "asume lo más mínimo" sujeto a las restricciones que ha puesto en ella (por ejemplo, sin restricciones significa que solo obtiene Jeffreys antes), mientras que la distribución Beta 2 puede contener algunas características "ocultas" que puede o no ser deseable en su caso específico (por ejemplo, si la información previa es más confiable que los datos, entonces Beta 2 es mala).
La otra buena propiedad de la distribución MaxEnt es que si no hay restricciones no especificadas que operan en el mecanismo de generación de datos, entonces la distribución MaxEnt es abrumadoramente la distribución más probable que verá (estamos hablando de miles de millones y billones a uno). Por lo tanto, si la distribución que ve no es la MaxEnt, entonces es probable que haya restricciones adicionales que no haya especificado que operen en el proceso verdadero, y los valores observados pueden proporcionar una pista sobre cuál podría ser esa restricción.