Por lo que puedo decir, no hay mucha diferencia entre AIC y BIC. Ambas son aproximaciones matemáticamente convenientes que uno puede hacer para comparar modelos de manera eficiente. Si le dan diferentes "mejores" modelos, probablemente significa que tiene una alta incertidumbre del modelo, lo que es más importante de lo que debe preocuparse que si debe usar AIC o BIC. Personalmente, me gusta más BIC porque pide más (menos) de un modelo si tiene más (menos) datos para ajustarse a sus parámetros, algo así como un maestro que pide un estándar de rendimiento más alto (más bajo) si su estudiante tiene más (menos) ) tiempo para aprender sobre el tema. Para mí, esto parece ser algo intuitivo. Pero estoy seguro de que también existen argumentos igualmente intuitivos y convincentes para AIC, dada su forma simple.
Ahora, cada vez que haga una aproximación, seguramente habrá algunas condiciones cuando esas aproximaciones sean basura. Esto se puede ver ciertamente para AIC, donde existen muchos "ajustes" (AICc) para tener en cuenta ciertas condiciones que hacen que la aproximación original sea mala. Esto también está presente para BIC, porque existen varios otros métodos más exactos (pero aún así eficientes), como las aproximaciones de Fully Laplace a mezclas de g-priors de Zellner (BIC es una aproximación al método de aproximación de Laplace para integrales).
Un lugar donde ambos son basura es cuando tienes información previa sustancial sobre los parámetros dentro de cualquier modelo dado. AIC y BIC penalizan innecesariamente los modelos donde los parámetros se conocen parcialmente en comparación con los modelos que requieren que los parámetros se estimen a partir de los datos.
P(D|M,A)P(M|D,A)MMA
Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best
Y luego continúe asignando los mismos modelos de probabilidad (mismos parámetros, mismos datos, mismas aproximaciones, etc.), obtendré el mismo conjunto de valores BIC. Es solo al atribuir algún tipo de significado único a la letra lógica "M" que uno se ve envuelto en preguntas irrelevantes sobre "el verdadero modelo" (ecos de "la verdadera religión"). Lo único que "define" M son las ecuaciones matemáticas que lo utilizan en sus cálculos, y esto casi nunca destaca una sola definición. Igualmente podría poner una proposición de predicción sobre M ("el i-ésimo modelo dará las mejores predicciones"). Personalmente, no puedo ver cómo esto cambiaría cualquiera de las probabilidades y, por lo tanto, cuán bueno o malo será BIC (AIC también para ese asunto, aunque AIC se basa en una derivación diferente)
Y, además, lo que está mal con la declaración Si el verdadero modelo está en el conjunto estoy considerando, entonces hay una probabilidad del 57% que es el modelo B . Me parece bastante razonable, o podría ir a la versión más "blanda", hay un 57% de probabilidad de que el modelo B sea el mejor del conjunto que se está considerando
Un último comentario: creo que encontrará tantas opiniones sobre AIC / BIC como personas que las conocen.