En P. 34 de su PRNN Brian Ripley comenta que "el AIC fue nombrado por Akaike (1974) como 'Un criterio de información', aunque parece que comúnmente se cree que el A significa Akaike". De hecho, al presentar la estadística AIC, Akaike (1974, p.719) explica que
"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".
Considerando esta cita como una predicción hecha en 1974, es interesante notar que en solo cuatro años Akaike (1977, 1978) y Schwarz (1978) propusieron dos tipos de estadística BIC (IC bayesiano). Tomó Spiegelhalter et al. (2002) mucho más tiempo para llegar a DIC (Deviance IC). Si bien Akaike (1974) no predijo la aparición del criterio CIC, sería ingenuo creer que nunca fue contemplado. Fue propuesto por Carlos C. Rodríguez en 2005. (Tenga en cuenta que el CIC (Criterio de Inflación de Covarianza) de R. Tibshirani y K. Knight es algo diferente).
Sabía que las personas de la Universidad de Monash propusieron el EIC (IC empírico) alrededor de 2003. Acabo de descubrir el Criterio de información focalizada (FIC). Algunos libros se refieren a Hannan y Quinn IC como HIC, ver, por ejemplo, este ). Sé que debería haber GIC (IC generalizado) y acabo de descubrir el Criterio de inversión de información (IIC). Hay NIC, TIC y más.
Creo que podría cubrir el resto del alfabeto, así que no pregunto dónde se detiene la secuencia AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... o qué letras del alfabeto tienen no se ha utilizado o se ha utilizado al menos dos veces (p. ej., la E en EIC puede significar Extended o Empirical). Mi pregunta es más simple y espero que sea más útil. ¿Puedo usar esas estadísticas indistintamente, ignorando los supuestos específicos de los que se derivaron, las situaciones específicas en las que debían ser aplicables, y así sucesivamente?
Esta pregunta está en parte motivada por Burnham y Anderson (2001) escribiendo que:
...the comparison of AIC and BIC model selection ought to be based on their performance
properties such as mean square error for parameter estimation (includes prediction) and
confidence interval coverage: tapering effects or not, goodness-of-fit issues,
derivation of theory is irrelevant as it can be frequentist or Bayes.
El capítulo 7 de la monografía de Hyndman et al. Sobre el suavizado exponencial parece seguir los consejos de BA al analizar qué tan bien funcionan los cinco circuitos integrados alternativos (AIC, BIC, AICc, HQIC, LEIC) al seleccionar el modelo que pronostica mejor (según lo medido por una nueva medida de error propuesta llamada MASE) para concluir que la AIC era una mejor alternativa más a menudo. (El HQIC se informó como el mejor selector de modelos solo una vez).
No estoy seguro de cuál es el propósito útil de los ejercicios de investigación que tratan implícitamente a todos los ICc como si hubieran sido derivados para responder una misma pregunta bajo suposiciones equivalentes. En particular, no estoy seguro de cómo es útil investigar el desempeño predictivo del criterio consistente para determinar el orden de una autorregresión (que Hannan y Quinn derivaron para secuencias estacionarias ergódicas) al usarlo en el contexto de la exponencial no estacionaria modelos de suavizado descritos y analizados en la monografía de Hyndman et al. ¿Me estoy perdiendo de algo?
Referencias
Akaike, H. (1974), Una nueva mirada a la identificación del modelo estadístico, IEEE Transactions on Automatic Control 19 (6), 716-723.
Akaike, H. (1977), Sobre el principio de maximización de la entropía, en PR Krishnaiah, ed., Aplicaciones de estadística , vol. 27, Amsterdam: Holanda Septentrional, pp. 27-41.
Akaike, H. (1978), Un análisis bayesiano del procedimiento mínimo de AIC, Anales del Instituto de Matemática Estadística 30 (1), 9-14.
Burnham, KP y Anderson, DR (2001) Información de Kullback-Leibler como base para una fuerte inferencia en estudios ecológicos, Wildlife Research 28, 111-119
Hyndman, RJ, Koehler, AB, Ord, JK y Snyder, RD Predicción con suavizado exponencial: el enfoque de espacio de estado. Nueva York: Springer, 2008
Ripley, BD Pattern Recognition y redes neuronales . Cambridge: Cambridge University Press, 1996
Schwarz, G. (1978), Estimación de la dimensión de un modelo, Annals of Statistics 6 (2), 461-464.
Spiegelhalter, DJ, Best, NG, Carlin, BP y van der Linde, A. (2002), Medidas bayesianas de complejidad del modelo yt (con discusión), Journal of the Royal Statistical Society. Serie B (Metodología estadística) 64 (4), 583-639.