Entonces entiendo que la selección de variables es parte de la selección del modelo. Pero, ¿en qué consiste exactamente la selección del modelo? ¿Es más que lo siguiente:
1) elige una distribución para tu modelo
2) elegir variables explicativas,?
Pregunto esto porque estoy leyendo un artículo de Burnham & Anderson: AIC vs BIC donde hablan sobre AIC y BIC en la selección de modelos. Al leer este artículo, me doy cuenta de que he estado pensando en la 'selección de modelo' como 'selección variable' (comentarios de ref. ¿BIC intenta encontrar un modelo verdadero? )
Un extracto del artículo donde hablan sobre 12 modelos con grados crecientes de "generalidad" y estos modelos muestran "efectos de disminución" (Figura 1) cuando KL-Information se traza contra los 12 modelos:
DIFERENTES FILOSOFÍAS Y MODELOS OBJETIVO ... A pesar de que el objetivo de BIC es un modelo más general que el modelo objetivo para AIC, el modelo seleccionado con mayor frecuencia aquí por BIC será menos general que el Modelo 7 a menos que n sea muy grande. Podría ser el Modelo 5 o 6. Se sabe (de numerosos documentos y simulaciones en la literatura) que en el contexto de los efectos de disminución gradual (Figura 1), AIC funciona mejor que BIC. Si este es el contexto del análisis de datos reales, se debe utilizar AIC.
¿Cómo puede BIC siempre elegir un modelo más complejo que la AIC en la selección de modelos que no entiendo! ¿Qué es específicamente la "selección de modelo" y cuándo BIC elige específicamente un modelo más "general" que AIC?
Si hablamos de selección de variables, entonces BIC seguramente siempre debe elegir el modelo con la menor cantidad de variables, ¿correcto? El término en BIC siempre penalizará las variables agregadas más que el término en AIC. ¿Pero esto no es irrazonable cuando " el objetivo de BIC es un modelo más general que el modelo objetivo de AIC "?2 k
EDITAR :
De una discusión en los comentarios en ¿Hay alguna razón para preferir el AIC o BIC sobre el otro? Vemos una pequeña discusión entre @Michael Chernick y @ user13273 en los comentarios, lo que me lleva a creer que esto es algo que no es tan trivial:
Creo que es más apropiado llamar a esta discusión como selección "característica" o selección "covariable". Para mí, la selección del modelo es mucho más amplia e implica la especificación de la distribución de errores, la forma de la función de enlace y la forma de covariables. Cuando hablamos de AIC / BIC, normalmente estamos en una situación en la que todos los aspectos de la construcción de modelos son fijos, excepto la selección de covariables. - user13273 13 de agosto de 12 a las 21:17
La decisión de las covariables específicas que se incluirán en un modelo generalmente se conoce como el término selección de modelo y hay una serie de libros con selección de modelo en el título que deciden principalmente qué covariables / parámetros de modelo incluir en el modelo. - Michael Chernick 24 de agosto de 12 a 14:44