Estoy trabajando en un problema de inferencia de alta dimensión (alrededor de 2000 parámetros del modelo) para el cual somos capaces de realizar una estimación MAP de manera sólida al encontrar el máximo global del log-posterior utilizando una combinación de optimización basada en gradiente y un algoritmo genético.
Me gustaría mucho poder hacer una estimación de las incertidumbres en los parámetros del modelo además de encontrar la estimación MAP.
Somos capaces de calcular eficientemente el gradiente del log-posterior con respecto a los parámetros, por lo que a largo plazo nuestro objetivo es utilizar el MCMC de Hamilton para hacer un muestreo, pero por ahora estoy interesado en estimaciones no basadas en el muestreo.
El único enfoque que conozco es calcular el inverso del hessiano en el modo para aproximar el posterior como normal multivariado, pero incluso esto parece inviable para un sistema tan grande, ya que incluso si calculamos los elementos de la Hesse estoy seguro de que no pudimos encontrar su inverso.
¿Alguien puede sugerir qué tipo de enfoques se usan típicamente en casos como este?
¡Gracias!
EDITAR : información adicional sobre el problema
Antecedentes
Este es un problema inverso relacionado con un gran experimento de física. Tenemos una malla triangular 2D que describe algunos campos físicos, y los parámetros de nuestro modelo son los valores físicos de esos campos en cada vértice de la malla. La malla tiene aproximadamente 650 vértices, y modelamos 3 campos, por lo que de allí provienen nuestros parámetros del modelo 2000.
Nuestros datos experimentales provienen de instrumentos que no miden estos campos directamente, sino cantidades que son funciones no lineales complicadas de los campos. Para cada uno de los diferentes instrumentos tenemos un modelo de avance que mapea los parámetros del modelo a las predicciones de los datos experimentales, y una comparación entre la predicción y la medición arroja una probabilidad logarítmica.
Luego resumimos las probabilidades de registro de todos estos instrumentos diferentes, y también agregamos algunos valores de registro previo que aplican algunas restricciones físicas a los campos.
Por lo tanto, dudo que este 'modelo' caiga perfectamente en una categoría: no tenemos una elección de cuál es el modelo, está dictado por cómo funcionan los instrumentos reales que recopilan nuestros datos experimentales.
Conjunto de
datos El conjunto de datos se compone de imágenes de 500x500, y hay una imagen para cada cámara, por lo que los puntos de datos totales son 500x500x4 = .
Modelo de error
Tomamos todos los errores en el problema como gaussianos en este momento. En algún momento, podría tratar de pasar a un modelo de error t de estudiante solo por un poco de flexibilidad adicional, pero las cosas todavía parecen funcionar bien solo con gaussianos.
Ejemplo de probabilidad
Este es un experimento de física de plasma, y la gran mayoría de nuestros datos provienen de cámaras apuntadas al plasma con filtros particulares frente a las lentes para observar solo partes específicas del espectro de luz.
Para reproducir los datos hay dos pasos; primero tenemos que modelar la luz que proviene del plasma en la malla, luego tenemos que modelar esa luz de nuevo a una imagen de cámara.
Desafortunadamente, modelar la luz que proviene del plasma depende de los coeficientes de velocidad efectivos, que indican cuánta luz emiten los diferentes procesos dados los campos. Estas tasas son predichas por algunos modelos numéricos caros, por lo que tenemos que almacenar su salida en cuadrículas y luego interpolarlas para buscar valores. Los datos de la función de velocidad solo se calculan una vez: los almacenamos y luego construimos una spline a partir de ella cuando se inicia el código, y luego esa spline se utiliza para todas las evaluaciones de funciones.
Supongamos que y son las funciones de velocidad (que evaluamos por interpolación), luego la emisión en el 'ésimo vértice de la malla viene dada por
Dado que los errores son gaussianos, la probabilidad de registro para esta cámara en particular es
donde son los datos de la cámara. La probabilidad de registro total es una suma de 4 de las expresiones anteriores, pero para diferentes cámaras, que tienen diferentes versiones de las funciones de velocidad porque están mirando diferentes partes del espectro de luz.
Ejemplo anterior
Tenemos varios antecedentes que efectivamente establecen ciertos límites superiores e inferiores en varias cantidades, pero estos tienden a no actuar con demasiada fuerza sobre el problema. Tenemos uno anterior que actúa fuertemente, que aplica efectivamente el suavizado de tipo laplaciano a los campos. También toma una forma gaussiana: