Aquí hay una respuesta ligeramente fuera del campo izquierdo, que solo toca la parte de su pregunta "mejores prácticas para combinar múltiples modelos" . Esto es básicamente mi tesis de honor, excepto que estoy tratando con modelos complejos y altamente no lineales que exhiben caos y ruido: modelos climáticos. Es probable que esto no sea ampliamente aplicable a muchos campos, pero podría ser útil en ecología o econometría.
Hasta hace relativamente poco en la comunidad de modelos climáticos, los modelos se mezclaron en gran medida en un promedio no ponderado (generalmente después de la corrección del sesgo que implica eliminar la media del modelo para parte o la totalidad del período de la muestra). Esto es básicamente lo que hizo el IPCC para el cuarto informe de evaluación (4AR) e informes anteriores.
Este es más o menos un ejemplo de la combinación de la escuela de " verdad más error ", donde se asume tácita o explícitamente que las series de observación (por ejemplo, temperatura global, precipitación local, etc.) son verdaderas, y eso si toma suficientes muestras (por ejemplo, ejecuciones del modelo), el ruido en las ejecuciones del modelo se cancelará (ver (1)).
Más recientemente, se han utilizado métodos para combinar modelos basados en la ponderación del rendimiento . Debido a que los modelos climáticos son muy ruidosos y tienen tantas variables y parámetros, las únicas formas de evaluar el rendimiento (que yo sepa) son tomando la covarianza o tomando el MSE entre la salida del modelo y la serie temporal observada. Los modelos se pueden combinar ponderando la media en función de esa medida. Hay una buena descripción de esto en (2).
Una suposición detrás de este método de combinación de simulaciones es la suposición de que todos los modelos son razonablemente independientes : si algunos fueran altamente dependientes, sesgarían la media. Esta suposición era razonablemente justa para el conjunto de datos utilizado para 4AR ( CMIP3 , ya que este conjunto de datos estaba compuesto por pocas ejecuciones de modelos de muchos grupos de modelado (por otro lado, el código se comparte en la comunidad de modelado, por lo que todavía puede haber alguna interdependencia Para una mirada interesante sobre esto, ver (3)). El conjunto de datos para el próximo informe de evaluación, CMIP5, no tiene este atributo algo fortuito: algunos equipos de modelado enviarán algunas carreras, mientras que otros enviarán cientos. Los conjuntos provenientes de diferentes equipos pueden ser producidos por la perturbación de la condición inicial, o por cambios en la física del modelo y la parametrización. Además, este súper conjunto no se muestrea de manera sistemática: solo se acepta quién trae datos (dentro de lo razonable). Esto se conoce en el campo como un " conjunto de oportunidades ". Existe una buena posibilidad de que el uso de una media no ponderada en un conjunto de este tipo le dé un sesgo importante hacia los modelos con más carreras (ya que a pesar de que hay cientos de carreras, es probable que haya un número mucho menor de carreras realmente independientes).
Mi supervisor tiene un documento en revisión en el momento que describe un proceso de combinación de modelos que involucra el desempeño Y la ponderación de la independencia . Hay un resumen de la conferencia disponible (4), publicaré el enlace al documento cuando se publique (proceso lento, no contenga la respiración). Básicamente, este artículo describe un proceso que implica tomar la covarianza de los errores del modelo (model-obs) y ponderar los modelos que tienen una alta covarianza con todos los demás modelos (es decir, modelos con errores altamente dependientes). La varianza del error del modelo también se calcula y se usa como componente de ponderación del rendimiento.
También vale la pena señalar que el modelado climático obviamente se ve enormemente afectado por los caprichos del modelado numérico en general. Hay una cosa llamada "prueba de risa" : si termina con una ejecución de modelo que implica que las temperaturas medias globales serán de + 20 ° C para 2050, simplemente la descarta, porque claramente no es físicamente relevante. Obviamente este tipo de prueba es bastante subjetiva. Todavía no lo he requerido, pero espero hacerlo en el futuro cercano.
Esa es mi comprensión de la combinación del modelo de estado en mi campo en este momento. Obviamente todavía estoy aprendiendo, así que si encuentro algo especial, volveré y actualizaré esta respuesta.
(1) Tebaldi, C. y Knutti, R., 2007. El uso del conjunto de modelos múltiples en proyecciones climáticas probabilísticas. Transacciones filosóficas de la Royal Society A: Ciencias Matemáticas, Físicas e Ingeniería, 365 (1857), pp.2053–2075.
(2) Knutti, R. et al., 2010. Reunión de expertos del IPCC sobre evaluación y combinación de proyecciones climáticas de modelos múltiples.
(3) Masson, D. y Knutti, R., 2011. Genealogía del modelo climático. Geophys Res. Lett, 38 (8), p. L08703.
(4) Abramowitz, G. y Bishop, C., 2010. Definición y ponderación de la dependencia del modelo en la predicción por conjuntos. En AGU Fall Meeting Abstracts. pag. 07.