Esta pregunta es un seguimiento o intento de aclarar la posible confusión con respecto a un tema que yo y muchos otros encontramos un poco difícil, con respecto a la diferencia entre AIC y BIC. En una muy buena respuesta de @Dave Kellen sobre este tema ( /stats//a/767/30589 ) leemos:
Su pregunta implica que AIC y BIC intentan responder la misma pregunta, lo cual no es cierto. AIC intenta seleccionar el modelo que describa más adecuadamente una realidad desconocida de alta dimensión. Esto significa que la realidad nunca está en el conjunto de modelos candidatos que se están considerando. Por el contrario, BIC intenta encontrar el modelo VERDADERO entre el conjunto de candidatos. Me resulta bastante extraño suponer que la realidad se instancia en uno de los modelos que los investigadores construyeron en el camino. Este es un problema real para BIC.
En un comentario a continuación, por @ gui11aume, leemos:
(-1) Gran explicación, pero me gustaría cuestionar una afirmación. @Dave Kellen ¿Podría dar una referencia de dónde está la idea de que el modelo TRUE debe estar en el set para BIC? Me gustaría investigar sobre esto, ya que en este libro los autores dan una prueba convincente de que este no es el caso. - gui11aume mayo 27 '12 a las 21:47
Parece que esta afirmación proviene del propio Schwarz (1978), aunque la afirmación no era necesaria: por los mismos autores (como @ gui11aume enlaza), leemos de su artículo "Inferencia multimodelo: comprensión de AIC y BIC en la selección de modelos" ( Burnham y Anderson, 2004):
¿La derivación de BIC supone la existencia de un modelo verdadero o, más estrictamente, se supone que el modelo verdadero está en el conjunto de modelos cuando se usa BIC? (La derivación de Schwarz especificó estas condiciones.) ... La respuesta ... no. Es decir, BIC (como base para una aproximación a una determinada integral bayesiana) se puede derivar sin suponer que el modelo subyacente a la derivación es verdadero (ver, por ejemplo, Cavanaugh y Neath 1999; Burnham y Anderson 2002: 293-5). Ciertamente, al aplicar BIC, el conjunto de modelos no necesita contener el modelo verdadero (no existente) que representa la realidad completa. Además, la convergencia en la probabilidad del modelo seleccionado por BIC a un modelo targbet (bajo la idealización de una muestra iid) no significa lógicamente que ese modelo objetivo debe ser la verdadera distribución generadora de datos).
Entonces, creo que vale la pena una discusión o alguna aclaración (si se necesita más) sobre este tema. En este momento, todo lo que tenemos es un comentario de @ gui11aume (¡gracias!) Bajo una respuesta muy votada con respecto a la diferencia entre AIC y BIC.