Ediciones: He agregado un ejemplo simple: inferencia de la media de la . También he aclarado ligeramente por qué los intervalos creíbles que no coinciden con los intervalos de confianza son malos.
Yo, un bayesiano bastante devoto, estoy en medio de una especie de crisis de fe.
Mi problema es el siguiente. Suponga que quiero analizar algunos datos IID . Lo que haría es:
primero, proponga un modelo condicional:
Luego, elija un previo en :
Finalmente, aplique la regla de Bayes, calcule la parte posterior: (o alguna aproximación a ella si no puede ser cuestionable) y responda todas las preguntas que tenga sobre
Este es un enfoque sensato: si el verdadero modelo de los datos está "dentro" de mi condicional (corresponde a algún valor ), entonces puedo recurrir a la teoría de decisión estadística para decir que mi método es admisible (ver Robert's "La opción bayesiana" para más detalles; "Todas las estadísticas" también da una explicación clara en el capítulo correspondiente).
Sin embargo, como todos saben, asumir que mi modelo es correcto es bastante arrogante: ¿por qué la naturaleza debe caer perfectamente dentro de la caja de los modelos que he considerado? Es mucho más realista suponer que el modelo real de los datos difiere de para todos los valores de . Esto generalmente se llama un modelo "mal especificado".p ( X | θ ) θ
Mi problema es que, en este caso más realista y mal especificado, no tengo ningún buen argumento para ser bayesiano (es decir, calcular la distribución posterior) versus simplemente calcular el Estimador de máxima verosimilitud (MLE):
De hecho, según Kleijn, vd Vaart (2012) , en el caso mal especificado, la distribución posterior:
converge como a una distribución dirac centrada en atheta M L
no tiene la varianza correcta (a menos que dos valores sean iguales) para garantizar que los intervalos creíbles de los intervalos de confianza coincidentes posteriores para . (Tenga en cuenta que, si bien los intervalos de confianza son obviamente algo que a los bayesianos no les importa en exceso, esto cualitativamente significa que la distribución posterior es intrínsecamente incorrecta, ya que implica que sus intervalos creíbles no tienen una cobertura correcta)
Por lo tanto, estamos pagando una prima computacional (la inferencia bayesiana, en general, es más costosa que MLE) por no tener propiedades adicionales
Por lo tanto, finalmente, mi pregunta: ¿hay algún argumento, ya sea teórico o empírico, para usar la inferencia bayesiana sobre la alternativa MLE más simple cuando el modelo está mal especificado?
(Como sé que mis preguntas a menudo no son claras, avíseme si no comprende algo: intentaré reformularlo)
Editar: consideremos un ejemplo simple: inferir la media de bajo un modelo gaussiano (con varianza conocida para simplificar aún más). Consideramos un previo gaussiano: denotamos la media anterior, la varianza inversa del previo. Sea el medio empírico de . Finalmente, tenga en cuenta: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + n
La distribución posterior es:
En el caso correctamente especificado (cuando realmente tiene una distribución gaussiana), este posterior tiene las siguientes propiedades agradables
Si los se generan a partir de un modelo jerárquico en el que su media compartida se selecciona de la distribución anterior, entonces los intervalos creíbles posteriores tienen una cobertura exacta. Condicional a los datos, la probabilidad de que esté en cualquier intervalo es igual a la probabilidad de que la parte posterior se atribuya a este intervalo θ
Incluso si lo anterior no es correcto, los intervalos creíbles tienen una cobertura correcta en el límite en el que la influencia previa en el posterior desaparece
el posterior además tiene buenas propiedades frecuentistas: se garantiza que cualquier estimador bayesiano construido a partir del posterior es admisible, la media posterior es un estimador eficiente (en el sentido de Cramer-Rao) de la media, los intervalos creíbles son, asintóticamente, intervalos de confianza.
En el caso mal especificado, la mayoría de estas propiedades no están garantizadas por la teoría. Para arreglar ideas, supongamos que el modelo real para es que, en cambio, son distribuciones de Estudiantes. La única propiedad que podemos garantizar (Kleijn et al) es que la distribución posterior se concentra en la media real de en el límite . En general, todas las propiedades de cobertura desaparecerían. Peor aún, en general, podemos garantizar que, en ese límite, las propiedades de cobertura son fundamentalmente incorrectas: la distribución posterior atribuye la probabilidad incorrecta a varias regiones del espacio.X i n → ∞