Paradoja en la selección del modelo (AIC, BIC, ¿para explicar o predecir?)


18

Después de leer "Explicar o predecir " de Galit Shmueli (2010), me sorprende una aparente contradicción. Hay tres premisas,

  1. Elección del modelo basado en AIC versus BIC (final de p. 300 - comienzo de p. 301): simplemente, AIC debe usarse para seleccionar un modelo destinado a predicción, mientras que BIC debe usarse para seleccionar un modelo para explicación . Además (no en el documento anterior), sabemos que bajo ciertas condiciones BIC selecciona el modelo verdadero entre el conjunto de modelos candidatos; El verdadero modelo es lo que buscamos en el modelado explicativo (final de la pág. 293).
  2. Aritmética simple: AIC seleccionará un modelo más grande que BIC para muestras de tamaño 8 o más grande (satisfactoria debido a las diferentes penalidades de complejidad en AIC versus BIC).ln(n)>2
  3. El modelo "verdadero" (es decir, el modelo con los regresores correctos y la forma funcional correcta pero los coeficientes estimados de manera imperfecta) puede no ser el mejor modelo para la predicción (p. 307): un modelo de regresión con un predictor faltante puede ser un mejor modelo de pronóstico - la introducción del sesgo debido al predictor faltante puede verse compensada por la reducción de la varianza debido a la imprecisión de la estimación.

Los puntos 1. y 2. sugieren que los modelos más grandes pueden ser mejores para la predicción que los modelos más parsimoniosos. Mientras tanto, el punto 3. da un ejemplo opuesto donde un modelo más parsimonioso es mejor para la predicción que un modelo más grande. Esto me parece desconcertante.

Preguntas:

  1. ¿Cómo puede la aparente contradicción entre los puntos {1. y 2.} y 3. ser explicado / resuelto?
  2. A la luz del punto 3., ¿podría dar una explicación intuitiva de por qué y cómo un modelo más grande seleccionado por AIC es realmente mejor para la predicción que un modelo más parsimonioso seleccionado por BIC?

2
No entiendo la paradoja / contradicción. AIC es eficiente (minimiza asintóticamente el error de predicción esperado) y BIC es consistente (selecciona asintóticamente el orden verdadero). El punto 3) dice que el sesgo puede ser compensado por la varianza. Obviamente no hay garantía de que uno sea mejor que el otro en una determinada muestra. Por lo tanto, su "paradoja" parece ser que para una muestra dada, AIC puede no ser el mejor para la predicción, lo cual no es sorprendente. Para su Q2: si el aumento de sesgo inducido por el modelo más pequeño de BIC es mayor que el aumento de la varianza en el AIC más grande, AIC es mejor.
hejseb

2
Le sugiero que mire los primeros capítulos en "Selección de modelos y promedio de modelos" de Nils Hjort y Gerda Claeskens, tal vez eso aclare las cosas.
hejseb

Respuestas:


1

No deben tomarse en el mismo contexto; los puntos 1 y 2 tienen contextos diferentes. Tanto para AIC como para BIC, primero se explora qué combinación de parámetros en qué número producen los mejores índices (algunos autores tienen ajustes epilépticos cuando uso la palabra índiceen este contexto. Ignórelos o busque el índice en el diccionario.) En el punto 2, AIC es el modelo más rico, donde más rico significa seleccionar modelos con más parámetros, solo a veces, porque con frecuencia el modelo AIC óptimo es el mismo número de parámetros que el modelo BIC. selección. Es decir, si AIC y BIC seleccionan modelos que tienen el MISMO número de parámetros, entonces la afirmación es que AIC será mejor para la predicción que BIC. Sin embargo, lo contrario podría ocurrir si BIC se maximiza con un modelo de menos parámetros seleccionado (pero sin garantías). Sober (2002) concluyó que AIC mide la precisión predictiva mientras que BIC mide la bondad de ajuste, donde la precisión predictiva puede significar predecir y fuera del rango de valores extremos de x. Cuando afuera con frecuencia, un AIC menos óptimo que tiene parámetros de predicción débilmente caídos predecirá mejor los valores extrapolados que un índice AIC óptimo de más parámetros en su modelo seleccionado. De paso, noto que AIC y ML no obvian la necesidad de pruebas de error de extrapolación, que es una prueba separada para los modelos. Esto se puede hacer reteniendo valores extremos del conjunto de "entrenamiento" y calculando el error entre el modelo extrapolado "post-entrenamiento" y los datos retenidos.

Ahora BIC supuestamente es un predictor de error menor de los valores de y dentro de los valores extremos del rango de x . La bondad de ajuste mejorada a menudo tiene el precio del sesgo de la regresión (para la extrapolación), en el que el error se reduce al introducir ese sesgo. Esto, por ejemplo, a menudo aplana la pendiente para dividir el signo del promedio de los versos izquierdos a la derechaf(x)yresiduos (piense en más residuos negativos en un lado y más residuos positivos en el otro) reduciendo así el error total. Entonces, en este caso, estamos pidiendo el mejor valor de y dado un valor de x, y para AIC estamos pidiendo más de cerca una mejor relación funcional entre x e y. Una diferencia entre estos es, por ejemplo, que BIC, si otras opciones de parámetros son iguales, tendrá un mejor coeficiente de correlación entre el modelo y los datos, y AIC tendrá un mejor error de extrapolación medido como error de valor y para un valor x extrapolado dado.

El punto 3 es una declaración a veces bajo ciertas condiciones.

  • cuando los datos son muy ruidosos (gran );σ

  • cuando los valores absolutos verdaderos de los parámetros excluidos (en nuestro
    ejemplo ) son pequeños;β2

  • cuando los predictores están altamente correlacionados; y

  • cuando el tamaño de la muestra es pequeño o el rango de variables excluidas es pequeño.

En la práctica, una forma correcta de una ecuación no significa que ajustarse a ella producirá los valores correctos de los parámetros debido al ruido, y cuanto más ruido, mejor. Lo mismo sucede con R versus R ajustado y alta colinealidad. Es decir, a veces, cuando se agrega un parámetro, R degrada mientras que R mejora. 22222

Me apresuraría a señalar que estas declaraciones son optimistas. Por lo general, los modelos son incorrectos y, a menudo, un modelo mejor impondrá una norma que no se puede usar con AIC o BIC, o se supone que la estructura residual es incorrecta para su aplicación, y se necesitan medidas alternativas. En mi trabajo, este es siempre el caso.


1
No estoy seguro de que estés respondiendo las preguntas. Soy consciente de las limitaciones generales de los criterios de información, pero eso no es lo que estoy preguntando. Además, no entiendo su punto de vista si AIC y BIC tienen el MISMO número de parámetros, entonces la afirmación es que AIC será mejor para la predicción que BIC . Cuando los modelos alternativos tienen el mismo número de parámetros, la comparación AIC y BIC se reduce a la comparación de probabilidades, y tanto AIC como BIC seleccionarán la misma alternativa. ¿Podría también explicar qué quiere decir con un mejor modelo que impondrá una norma que no se puede usar con AIC o BIC ?
Richard Hardy

Continuación: Mientras tengamos la probabilidad y los grados de libertad, podemos calcular AIC y BIC.
Richard Hardy

@RichardHardy Verdadero: siempre que tengamos la probabilidad y los grados de libertad, podemos calcular AIC y BIC. Sin embargo, el cálculo será subóptimo y engañoso si los residuos son Student's-T y no hemos utilizado AIC y BIC para Student's-T. A diferencia de Student's-T, hay distribuciones de residuos para los cuales ML puede no publicarse, por ejemplo, Gamma, Beta, etc.
Carl

¡Gracias por la aclaración! Creo que debería existir una respuesta a las preguntas anteriores que sea bastante simple y general. Más específicamente, no creo que deba involucrar casos "feos" y fallas de AIC y BIC. Por el contrario, creo que debería haber un caso bastante básico que podría ilustrar por qué la paradoja es más aparente que real. Al mismo tiempo, su segundo párrafo parece ir en la dirección opuesta. No es que no sea valioso en sí mismo, pero me temo que podría distraernos de las verdaderas preguntas subyacentes aquí.
Richard Hardy

@RichardHardy A menudo, la pregunta práctica es intratable para AIC. Por ejemplo, la comparación de modelos iguales o diferentes con diferentes normas y / o transformaciones de datos o análisis de normas complicadas, por ejemplo, la reducción de errores de la regularización de Tikhonov de un parámetro derivado, inversas generales, etc. Esto también debe mencionarse para que alguien use AIC , BIC incorrectamente.
Carl
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.