Después de leer "Explicar o predecir " de Galit Shmueli (2010), me sorprende una aparente contradicción. Hay tres premisas,
- Elección del modelo basado en AIC versus BIC (final de p. 300 - comienzo de p. 301): simplemente, AIC debe usarse para seleccionar un modelo destinado a predicción, mientras que BIC debe usarse para seleccionar un modelo para explicación . Además (no en el documento anterior), sabemos que bajo ciertas condiciones BIC selecciona el modelo verdadero entre el conjunto de modelos candidatos; El verdadero modelo es lo que buscamos en el modelado explicativo (final de la pág. 293).
- Aritmética simple: AIC seleccionará un modelo más grande que BIC para muestras de tamaño 8 o más grande (satisfactoria debido a las diferentes penalidades de complejidad en AIC versus BIC).
- El modelo "verdadero" (es decir, el modelo con los regresores correctos y la forma funcional correcta pero los coeficientes estimados de manera imperfecta) puede no ser el mejor modelo para la predicción (p. 307): un modelo de regresión con un predictor faltante puede ser un mejor modelo de pronóstico - la introducción del sesgo debido al predictor faltante puede verse compensada por la reducción de la varianza debido a la imprecisión de la estimación.
Los puntos 1. y 2. sugieren que los modelos más grandes pueden ser mejores para la predicción que los modelos más parsimoniosos. Mientras tanto, el punto 3. da un ejemplo opuesto donde un modelo más parsimonioso es mejor para la predicción que un modelo más grande. Esto me parece desconcertante.
Preguntas:
- ¿Cómo puede la aparente contradicción entre los puntos {1. y 2.} y 3. ser explicado / resuelto?
- A la luz del punto 3., ¿podría dar una explicación intuitiva de por qué y cómo un modelo más grande seleccionado por AIC es realmente mejor para la predicción que un modelo más parsimonioso seleccionado por BIC?