Selección variable vs Selección de modelo

Entonces entiendo que la selección de variables es parte de la selección del modelo. Pero, ¿en qué consiste exactamente la selección del modelo? ¿Es más que lo siguiente:

1) elige una distribución para tu modelo

2) elegir variables explicativas,?

Pregunto esto porque estoy leyendo un artículo de Burnham & Anderson: AIC vs BIC donde hablan sobre AIC y BIC en la selección de modelos. Al leer este artículo, me doy cuenta de que he estado pensando en la 'selección de modelo' como 'selección variable' (comentarios de ref. ¿BIC intenta encontrar un modelo verdadero? )

Un extracto del artículo donde hablan sobre 12 modelos con grados crecientes de "generalidad" y estos modelos muestran "efectos de disminución" (Figura 1) cuando KL-Information se traza contra los 12 modelos:

DIFERENTES FILOSOFÍAS Y MODELOS OBJETIVO ... A pesar de que el objetivo de BIC es un modelo más general que el modelo objetivo para AIC, el modelo seleccionado con mayor frecuencia aquí por BIC será menos general que el Modelo 7 a menos que n sea muy grande. Podría ser el Modelo 5 o 6. Se sabe (de numerosos documentos y simulaciones en la literatura) que en el contexto de los efectos de disminución gradual (Figura 1), AIC funciona mejor que BIC. Si este es el contexto del análisis de datos reales, se debe utilizar AIC.

¿Cómo puede BIC siempre elegir un modelo más complejo que la AIC en la selección de modelos que no entiendo! ¿Qué es específicamente la "selección de modelo" y cuándo BIC elige específicamente un modelo más "general" que AIC?

Si hablamos de selección de variables, entonces BIC seguramente siempre debe elegir el modelo con la menor cantidad de variables, ¿correcto? El término en BIC siempre penalizará las variables agregadas más que el término en AIC. ¿Pero esto no es irrazonable cuando " el objetivo de BIC es un modelo más general que el modelo objetivo de AIC "? $2ln(N)k$ $2k$

EDITAR :

De una discusión en los comentarios en ¿Hay alguna razón para preferir el AIC o BIC sobre el otro? Vemos una pequeña discusión entre @Michael Chernick y @ user13273 en los comentarios, lo que me lleva a creer que esto es algo que no es tan trivial:

Creo que es más apropiado llamar a esta discusión como selección "característica" o selección "covariable". Para mí, la selección del modelo es mucho más amplia e implica la especificación de la distribución de errores, la forma de la función de enlace y la forma de covariables. Cuando hablamos de AIC / BIC, normalmente estamos en una situación en la que todos los aspectos de la construcción de modelos son fijos, excepto la selección de covariables. - user13273 13 de agosto de 12 a las 21:17

La decisión de las covariables específicas que se incluirán en un modelo generalmente se conoce como el término selección de modelo y hay una serie de libros con selección de modelo en el título que deciden principalmente qué covariables / parámetros de modelo incluir en el modelo. - Michael Chernick 24 de agosto de 12 a 14:44

— Erosennin
fuente

¡Buena pregunta! Al menos parte de la resolución es distinguir entre el "objetivo" de BIC en la terminología de este documento, el modelo verdadero, que elegirá con un tamaño de muestra muy grande, y el modelo que elige con una muestra particular Talla. No hay contradicción entonces, cuando se considera una secuencia anidada de modelos con un no creciente. parámetros, al decir que el objetivo de BIC es el modelo con 9 parámetros, a pesar de que a un tamaño de muestra moderado, el BIC elige el modelo con 4 parámetros, y el AIC el que tiene 6.

— Scortchi - Reinstalar a Monica

@Scortchi: Buen ejemplo, pero ¿no es el concepto de un modelo objetivo no totalmente redundante cuando hablamos de modelos anidados? Si el contexto es un conjunto de modelos anidados (entonces estamos hablando de la selección de variables): BIC podría tener un modelo de destino más complejo , pero nunca elegirá un modelo más complejo que AIC. En cualquier otro contexto (estamos hablando de la selección del modelo) (con un gran tamaño de muestra), el documento afirma que BIC elegirá un modelo objetivo más complejo ("general") que AIC. Cómo sucede esto específicamente, todavía no me queda claro.

— Erosennin

@Erosennin, ¿alguna vez lograste encontrar una respuesta a esta pregunta general tuya?

— zipzapboing

A veces, los modeladores separan la selección de variables en un paso distinto en el desarrollo del modelo. Por ejemplo, primero realizarían análisis exploratorios, investigarían la literatura académica y las prácticas de la industria y luego elaborarían una lista de variables candidatas. Llamarían a este paso selección de variable .

Luego, ejecutarían un montón de especificaciones diferentes con muchas combinaciones de variables diferentes, como el modelo OLS: donde denota la variable en un modelo . Habían escoger el mejor modelo fuera de producción de todos los modelos manualmente o de rutinas automatizadas. Entonces, estas personas llamarían a la selección del modelo de la última etapa .

y_{i} = \sum_{j_{m}} X_{i j_{m}} β_{j_{m}} + ε_{i},

$y_i=\sum_{j_m} X_{ij_m}\beta_{j_m}+\varepsilon_i,$

j_{m}

$j_m$

j

$j$

m

$m$

m

$m$

Esto es similar a cómo en el aprendizaje automático las personas hablan de ingeniería de características , cuando se les ocurren variables. Conecta las características en LASSO o marcos similares donde construyes un modelo usando estas características (variables). En este contexto, tiene sentido separar la selección de variables en un paso distinto, porque permite que el algoritmo elija los coeficientes correctos para las variables y no elimine ninguna variable. Su juicio (con respecto a qué variable entra en un modelo) se aísla en el paso de selección de variables, luego el resto depende del algoritmo de ajuste.

En el contexto del artículo que citó, todo esto es irrelevante. El documento utiliza BIC o AIC para seleccionar entre diferentes especificaciones del modelo. No importa si tuvo la selección de variables como un paso separado en este caso. Lo único que importa es qué variables están en una especificación de modelo particular , luego mire su BIC / AIC para elegir la mejor. Representan los tamaños de muestra y el número de variables. $m$

— Aksakal
fuente