AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC: ¿puedo usarlos indistintamente?

47

En P. 34 de su PRNN Brian Ripley comenta que "el AIC fue nombrado por Akaike (1974) como 'Un criterio de información', aunque parece que comúnmente se cree que el A significa Akaike". De hecho, al presentar la estadística AIC, Akaike (1974, p.719) explica que

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

Considerando esta cita como una predicción hecha en 1974, es interesante notar que en solo cuatro años Akaike (1977, 1978) y Schwarz (1978) propusieron dos tipos de estadística BIC (IC bayesiano). Tomó Spiegelhalter et al. (2002) mucho más tiempo para llegar a DIC (Deviance IC). Si bien Akaike (1974) no predijo la aparición del criterio CIC, sería ingenuo creer que nunca fue contemplado. Fue propuesto por Carlos C. Rodríguez en 2005. (Tenga en cuenta que el CIC (Criterio de Inflación de Covarianza) de R. Tibshirani y K. Knight es algo diferente).

Sabía que las personas de la Universidad de Monash propusieron el EIC (IC empírico) alrededor de 2003. Acabo de descubrir el Criterio de información focalizada (FIC). Algunos libros se refieren a Hannan y Quinn IC como HIC, ver, por ejemplo, este ). Sé que debería haber GIC (IC generalizado) y acabo de descubrir el Criterio de inversión de información (IIC). Hay NIC, TIC y más.

Creo que podría cubrir el resto del alfabeto, así que no pregunto dónde se detiene la secuencia AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... o qué letras del alfabeto tienen no se ha utilizado o se ha utilizado al menos dos veces (p. ej., la E en EIC puede significar Extended o Empirical). Mi pregunta es más simple y espero que sea más útil. ¿Puedo usar esas estadísticas indistintamente, ignorando los supuestos específicos de los que se derivaron, las situaciones específicas en las que debían ser aplicables, y así sucesivamente?

Esta pregunta está en parte motivada por Burnham y Anderson (2001) escribiendo que:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes.

El capítulo 7 de la monografía de Hyndman et al. Sobre el suavizado exponencial parece seguir los consejos de BA al analizar qué tan bien funcionan los cinco circuitos integrados alternativos (AIC, BIC, AICc, HQIC, LEIC) al seleccionar el modelo que pronostica mejor (según lo medido por una nueva medida de error propuesta llamada MASE) para concluir que la AIC era una mejor alternativa más a menudo. (El HQIC se informó como el mejor selector de modelos solo una vez).

No estoy seguro de cuál es el propósito útil de los ejercicios de investigación que tratan implícitamente a todos los ICc como si hubieran sido derivados para responder una misma pregunta bajo suposiciones equivalentes. En particular, no estoy seguro de cómo es útil investigar el desempeño predictivo del criterio consistente para determinar el orden de una autorregresión (que Hannan y Quinn derivaron para secuencias estacionarias ergódicas) al usarlo en el contexto de la exponencial no estacionaria modelos de suavizado descritos y analizados en la monografía de Hyndman et al. ¿Me estoy perdiendo de algo?

Referencias

Akaike, H. (1974), Una nueva mirada a la identificación del modelo estadístico, IEEE Transactions on Automatic Control 19 (6), 716-723.

Akaike, H. (1977), Sobre el principio de maximización de la entropía, en PR Krishnaiah, ed., Aplicaciones de estadística , vol. 27, Amsterdam: Holanda Septentrional, pp. 27-41.

Akaike, H. (1978), Un análisis bayesiano del procedimiento mínimo de AIC, Anales del Instituto de Matemática Estadística 30 (1), 9-14.

Burnham, KP y Anderson, DR (2001) Información de Kullback-Leibler como base para una fuerte inferencia en estudios ecológicos, Wildlife Research 28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK y Snyder, RD Predicción con suavizado exponencial: el enfoque de espacio de estado. Nueva York: Springer, 2008

Ripley, BD Pattern Recognition y redes neuronales . Cambridge: Cambridge University Press, 1996

Schwarz, G. (1978), Estimación de la dimensión de un modelo, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, NG, Carlin, BP y van der Linde, A. (2002), Medidas bayesianas de complejidad del modelo yt (con discusión), Journal of the Royal Statistical Society. Serie B (Metodología estadística) 64 (4), 583-639.

— Hibernando
fuente

99

En conversación con Findley y Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Akaike reveló que AIC fue utilizada por un asistente en su programa FORTRAN. Los nombres de variables como IC por defecto implican cantidades enteras; un prefijo como A fue suficiente para indicarle al compilador que la cantidad era real. Aunque no tenía la intención de "Akaike", se dio cuenta de que también significaba simplemente "una". (Por cierto, aunque esta referencia es, por así decirlo, un antídoto para una historia incorrecta, perpetúa la falta de ortografía de Mallows 'como Mallow's.)

— Nick Cox

Esta pregunta hace pensar en el "diseño experimental alfabético": doe.soton.ac.uk/elearning/section3.6.jsp

— kjetil b halvorsen

36

Entiendo que AIC, DIC y WAIC están estimando lo mismo: la desviación esperada fuera de la muestra asociada con un modelo. Esto también es lo mismo que las estimaciones de validación cruzada. En Gelman et al. (2013), dicen esto explícitamente:

Una forma natural de estimar el error de predicción fuera de la muestra es la validación cruzada (ver Vehtari y Lampinen, 2002, para una perspectiva bayesiana), pero los investigadores siempre han buscado medidas alternativas, ya que la validación cruzada requiere ajustes repetidos del modelo y puede tener problemas con datos escasos. Solo por razones prácticas, sigue habiendo lugar para correcciones de sesgo simples como AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin y van der Linde, 2002, van der Linde, 2005) y, más recientemente, WAIC (Watanabe, 2010), y todo esto puede verse como aproximaciones a diferentes versiones de validación cruzada (Stone, 1977).

BIC estima algo diferente, que está relacionado con la longitud mínima de descripción. Gelman y col. decir:

BIC y sus variantes difieren de los otros criterios de información considerados aquí al no estar motivados por una estimación del ajuste predictivo sino por el objetivo de aproximar la densidad de probabilidad marginal de los datos, p (y), según el modelo, que puede usarse para estimar las probabilidades posteriores relativas en un contexto de comparación de modelos discretos.

Desafortunadamente, no sé nada sobre los otros criterios de información que enumeró.

¿Se pueden utilizar los criterios de información tipo AIC de manera intercambiable? Las opiniones pueden diferir, pero dado que AIC, DIC, WAIC y validación cruzada estiman lo mismo, entonces sí, son más o menos intercambiables. BIC es diferente, como se señaló anteriormente. No sé sobre los demás.

¿Por qué tener más de uno?

AIC funciona bien cuando tiene una estimación de máxima probabilidad y antecedentes, pero realmente no tiene nada que decir sobre otros escenarios. La penalización también es demasiado pequeña cuando el número de parámetros se acerca al número de puntos de datos. AICc corrige en exceso esto, lo que puede ser bueno o malo dependiendo de su perspectiva.
DIC usa una penalización menor si partes del modelo están fuertemente restringidas por los anteriores (por ejemplo, en algunos modelos de niveles múltiples donde se estiman los componentes de la varianza). Esto es bueno, ya que los parámetros muy restringidos realmente no constituyen un grado completo de libertad. Desafortunadamente, las fórmulas generalmente utilizadas para DIC suponen que el posterior es esencialmente gaussiano (es decir, que está bien descrito por su media), por lo que uno puede obtener resultados extraños (por ejemplo, penalizaciones negativas) en algunas situaciones.
WAIC utiliza toda la densidad posterior con mayor eficacia que DIC, por lo que Gelman et al. preferirlo aunque puede ser un dolor de calcular en algunos casos.
La validación cruzada no se basa en ninguna fórmula en particular, pero puede ser computacionalmente prohibitiva para muchos modelos.

En mi opinión, la decisión sobre cuál de los criterios similares a los de la AIC utilizar depende completamente de este tipo de problemas prácticos, en lugar de una prueba matemática de que uno lo hará mejor que el otro.

referencias :

Gelman y col. Comprender los criterios de información predictiva para los modelos bayesianos. Disponible en http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf

— David J. Harris
fuente

3

Además de la referencia, Gelman et al. Para comprender los criterios de información predictiva para los modelos bayesianos, ver también el artículo más reciente Aki Vehtari, Andrew Gelman y Jonah Gabry (2016). Evaluación práctica del modelo bayesiano utilizando validación cruzada de dejar uno fuera y WAIC. En Estadísticas y Computación, doi: 10.1007 / s11222-016-9696-4. preimpresión arXiv arXiv: 1507.04544. arxiv.org/abs/1507.04544 Este documento demuestra también que la validación cruzada confiable se puede calcular en un tiempo insignificante para muchos modelos.

— Aki Vehtari

4

"Indistintamente" es una palabra demasiado fuerte. Todos ellos son criterios que buscan comparar modelos y encontrar un "mejor" modelo, pero cada uno define "mejor" de manera diferente y puede identificar diferentes modelos como "mejor".

— Emil Friedman
fuente

0

"Proponer un referéndum". Solo para votar! ;-) Me gustó el CAIC (Bozdogan, 1987) y el BIC únicamente por mi práctica personal, porque este criterio da una seria penalización por la complejidad, obtuvimos más parsimonia, pero siempre mostré la lista de buenos modelos - para delta 4-6 -8 (en lugar de 2). En el paso de investigar los parámetros (porque tenemos un "buen estiramiento de los modelos candidatos"), el promedio de MM (B & A) a menudo casi nada cambia. Me siento un poco escéptico con respecto a los clásicos AIC y AICc (H&T, popularizado por B&A), ya que a menudo dan una "capa gruesa de la crema". ;-)

— Ivan Kshnyasev
fuente