¿Es posible que el AIC y el BIC proporcionen selecciones de modelos totalmente diferentes?

Estoy realizando un modelo de regresión de Poisson con 1 variable de respuesta y 6 covariables. La selección del modelo usando AIC da como resultado un modelo con todas las covariables, así como 6 términos de interacción. Sin embargo, el BIC da como resultado un modelo con solo 2 covariables y sin términos de interacción. ¿Es posible que los dos criterios, que se ven muy similares, produzcan selecciones de modelos totalmente diferentes?

— WBM
fuente

Si no fuera posible obtener diferentes recomendaciones de modelo de las dos métricas, entonces no habría dos métricas, solo usaríamos una.

— Gregor Thomas

La palabra "totalmente diferente" es difícil de interpretar cuando los modelos son el resultado de elegir entre un conjunto de parámetros discretos.

— BallpointBen

Respuestas:

Es posible de hecho. Como se explica en https://methodology.psu.edu/AIC-vs-BIC , "BIC penaliza más la complejidad del modelo. La única forma en que deberían estar en desacuerdo es cuando AIC elige un modelo más grande que BIC".

Si su objetivo es identificar un buen modelo predictivo, debe usar el AIC. Si su objetivo es identificar un buen modelo explicativo, debe usar el BIC. Rob Hyndman resume muy bien esta recomendación en
https://robjhyndman.com/hyndsight/to-explain-or-predict/ :

"El AIC se adapta mejor a la selección del modelo para la predicción, ya que es asintóticamente equivalente a la validación cruzada de omisión en regresión, o la validación cruzada de un paso en series de tiempo. Por otro lado, podría argumentarse que el BIC se adapta mejor a la selección del modelo para explicación, ya que es consistente ".

La recomendación proviene del documento de Galit Shmueli "¿Explicar o predecir?", Statistical Science, 25 (3), 289-310 ( https://projecteuclid.org/euclid.ss/1294167961 ).

Apéndice:

Existe un tercer tipo de modelado, el modelo descriptivo, pero no conozco ninguna referencia sobre cuál de los AIC o BIC es el más adecuado para identificar un modelo descriptivo óptimo. Espero que otros aquí puedan intervenir con sus ideas.

— Isabella Ghement
fuente

\ln n < 2

$\ln n < 2$

n \leq 7

$n \le 7$

¡Buen punto! Con un tamaño de muestra de 7 o menos, me imagino que la selección del modelo está fuera de la mesa. 😀

— Isabella Ghement

— Subhash C. Davar

@ subhashc.davar: No hay respuesta todavía. Estoy tentado de enviarle un correo electrónico a Galit Shmueli y preguntarle qué piensa al respecto.

— Isabella Ghement

Si entendemos el significado de "descriptivo" y lo tomamos en serio, no estoy seguro de que tenga sentido hablar sobre la identificación del modelo descriptivo óptimo.

— gung - Restablece a Monica

Respuesta corta: sí, es muy posible. Los dos aplican diferentes penalizaciones en función del número de parámetros estimados (2k para AIC vs ln (n) xk para BIC, donde k es el número de parámetros estimados yn es el tamaño de la muestra). Por lo tanto, si la ganancia de probabilidad de agregar un parámetro es pequeña, BIC puede seleccionar diferentes modelos para AIC. Sin embargo, este efecto depende del tamaño de la muestra.

— NatWH
fuente

sería bueno hacer explícito que n es el tamaño de la muestra en la ecuación anterior

— fabiob