Recientemente me he encontrado con varias fuentes "informales" que indican que, en algunas circunstancias, si usamos el AIC o el BIC para entrenar un modelo de serie temporal, no necesitamos dividir los datos en prueba y entrenamiento, podemos usar todos Los datos para el entrenamiento. (Las fuentes incluyen, entre otras, una discusión sobre la publicación del blog de Rob Hyndman en CV , esta presentación de Stanford o la Sección 4 de este texto ).
En particular, parecen indicar que el AIC o BIC se pueden usar cuando el conjunto de datos es demasiado pequeño para permitir una división de tren / prueba.
Comentario de Rob Hyndman, por ejemplo: "Es mucho más eficiente usar AIC / BIC que usar conjuntos de prueba o CV, y se vuelve esencial para series de tiempo cortas donde no hay suficientes datos para hacer lo contrario".
Sin embargo, no puedo encontrar ningún texto o documento que discuta esto en detalle.
Una cosa que me desconcierta especialmente es que el AIC y el BIC tienden asintóticamente a la validación cruzada, lo que significa que, de ser posible, reemplazarían el CV por grandes conjuntos de datos, lo que va en contra de la idea de que sean útiles para pequeños conjuntos de datos.
¿Alguien puede señalarme una discusión formal (capítulos de libros, documentos, tutoriales) de esta idea?