¿Cómo se puede usar el AIC o BIC en lugar de la división de tren / prueba?

Recientemente me he encontrado con varias fuentes "informales" que indican que, en algunas circunstancias, si usamos el AIC o el BIC para entrenar un modelo de serie temporal, no necesitamos dividir los datos en prueba y entrenamiento, podemos usar todos Los datos para el entrenamiento. (Las fuentes incluyen, entre otras, una discusión sobre la publicación del blog de Rob Hyndman en CV , esta presentación de Stanford o la Sección 4 de este texto ).

En particular, parecen indicar que el AIC o BIC se pueden usar cuando el conjunto de datos es demasiado pequeño para permitir una división de tren / prueba.

Comentario de Rob Hyndman, por ejemplo: "Es mucho más eficiente usar AIC / BIC que usar conjuntos de prueba o CV, y se vuelve esencial para series de tiempo cortas donde no hay suficientes datos para hacer lo contrario".

Sin embargo, no puedo encontrar ningún texto o documento que discuta esto en detalle.

Una cosa que me desconcierta especialmente es que el AIC y el BIC tienden asintóticamente a la validación cruzada, lo que significa que, de ser posible, reemplazarían el CV por grandes conjuntos de datos, lo que va en contra de la idea de que sean útiles para pequeños conjuntos de datos.

¿Alguien puede señalarme una discusión formal (capítulos de libros, documentos, tutoriales) de esta idea?

— Skander H.
fuente

En el capítulo 5.5 de este libro , discuten cómo surgen muchos de estos criterios de selección de modelos. Comienzan con el criterio FPE de Akaike para los modelos AR, y luego discuten sobre AIC, AICc y BIC. Recorren las derivaciones bastante a fondo.

Lo que tienen en común es que investigan lo que sucede cuando usas algunos datos observados en la muestra. $\{X_t\}$ para estimar los parámetros del modelo y luego observar alguna función de pérdida (error de predicción cuadrático medio o divergencia de KL) en algunos datos no observados / hipotéticos fuera de la muestra $\{Y_t\}$ que surge del uso del modelo estimado en estos nuevos datos. Las ideas principales son que a) tome la expectativa con respecto a todos los datos, y 2) use algunos resultados asintóticos para obtener expresiones para algunas de las expectativas. La cantidad de (1) le brinda el rendimiento general esperado, pero (2) supone que tiene muchos más datos de los que realmente tiene. No soy un experto, pero supongo que los enfoques de validación cruzada también apuntan a estas medidas de rendimiento; pero en lugar de considerar los datos hipotéticos fuera de la muestra, utilizan datos reales que se separaron de los datos de entrenamiento.

El ejemplo más simple es el criterio FPE. Suponga que estima su modelo AR en todos los datos (algo así como el conjunto de prueba) y obtenga $\{\hat{\phi}_i\}_i$ . Entonces la pérdida esperada en los datos no observados $\{Y_t\}$ (es hipotético, no se divide como en la validación cruzada) es

\begin{aligned} mi (Y_{norte + 1} - {\hat{ϕ}}_{1} Y_{norte} - \dots - {\hat{ϕ}}_{pags} Y_{norte + 1 - pags})^{2} \\ = mi (Y_{norte + 1} - ϕ_{1} Y_{norte} - \dots - ϕ_{pags} Y_{norte + 1 - pags} - \\ ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{norte} - \dots - ({\hat{ϕ}}_{pags} - ϕ_{pags}) Y_{norte + 1 - pags})^{2} \\ = mi (Z_{t} + ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{norte} - \dots - ({\hat{ϕ}}_{pags} - ϕ_{pags}) Y_{norte + 1 - pags})^{2} \\ = σ^{2} + mi [mi [(({\hat{ϕ}}_{1} - ϕ_{1}) Y_{norte} - \dots - ({\hat{ϕ}}_{pags} - ϕ_{pags}) Y_{norte + 1 - pags})^{2} El | {X_{t}}]] \\ = σ^{2} + mi [\sum_{yo = 1}^{pags} \sum_{j = 1}^{pags} ({\hat{ϕ}}_{yo} - ϕ_{yo}) ({\hat{ϕ}}_{j} - ϕ_{j}) mi [Y_{norte + 1 - yo} Y_{norte + 1 - j} El | {X_{t}}]] \\ = σ^{2} + mi [({\hat{ϕ}}_{pags} - ϕ_{pags})^{'} Γ_{pags} ({\hat{ϕ}}_{pags} - ϕ_{pags})] \\ (error tipográfico en el libro: {norte}^{- 1 / / 2} debiera ser {norte}^{1 / / 2}) & \approx σ^{2} (1 + \frac{pags}{norte}) \\ (norte {\hat{σ}}^{2} / / σ^{2} aprox. χ_{norte - pags}^{2}) & \approx \frac{norte {\hat{σ}}^{2}}{norte - pags} (1 + \frac{pags}{norte}) = {\hat{σ}}^{2} \frac{norte + pags}{norte - pags} . \end{aligned}

$\begin{align*} & E(Y_{n+1} -\hat{\phi}_1Y_n -\cdots - \hat{\phi}_p Y_{n+1-p} )^2 \\ &= E(Y_{n+1} -\phi_1Y_n -\cdots - \phi_p Y_{n+1-p} - \\ & \hspace{30mm} (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= E( Z_t + (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= \sigma^2 + E[E[((\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 | \{X_t\} ]] \\ &= \sigma^2 + E\left[ \sum_{i=1}^p \sum_{j=1}^p (\hat{\phi}_i - \phi_i)(\hat{\phi}_j - \phi_j)E\left[ Y_{n+1-i}Y_{n+1-j} |\{X_t\} \right] \right] \\ &= \sigma^2 + E[({\hat{\phi}}_p -{\phi}_p )' \Gamma_p ({\hat{\phi}}_p -{\phi}_p )] \\ &\approx \sigma^2 ( 1 + \frac{p}{n}) \tag{typo in book: $n^{-1/2}$ should be $n^{1/2}$} \\ &\approx \frac{n \hat{\sigma}^2}{n-p} ( 1 + \frac{p}{n}) = \hat{\sigma}^2 \frac{n+p}{n-p} \tag{$n \hat{\sigma}^2/\sigma^2$ approx. $\chi^2_{n-p}$ }. \\ \end{align*}$

No conozco ningún artículo fuera de mi cabeza que compare empíricamente el rendimiento de estos criterios con las técnicas de validación cruzada. Sin embargo, este libro ofrece muchos recursos sobre cómo FPE, AIC, AICc y BIC se comparan entre sí.

— Taylor
fuente