Esta pregunta / tema surgió en una discusión con un colega y estaba buscando algunas opiniones sobre esto:
Estoy modelando algunos datos usando una regresión logística de efectos aleatorios, más precisamente una regresión logística de intercepción aleatoria. Para los efectos fijos tengo 9 variables que son de interés y entran en consideración. Me gustaría hacer algún tipo de selección de modelo para encontrar las variables que son significativas y dar el "mejor" modelo (solo efectos principales).
Mi primera idea fue usar el AIC para comparar diferentes modelos, pero con 9 variables no era demasiado emocionante para comparar 2 ^ 9 = 512 modelos diferentes (palabra clave: dragado de datos).
Discutí esto con un colega y me dijo que recordaba haber leído sobre el uso de la selección de modelos por pasos (o hacia adelante) con GLMM. Pero en lugar de usar un valor p (por ejemplo, basado en una prueba de razón de probabilidad para GLMM), uno debería usar el AIC como criterio de entrada / salida.
Encontré esta idea muy interesante, pero no encontré ninguna referencia que discutiera más sobre esto y mi colega no recordaba dónde la leyó. Muchos libros sugieren usar el AIC para comparar modelos, pero no encontré ninguna discusión sobre el uso de esto junto con un procedimiento de selección de modelo gradual o progresivo.
Entonces tengo básicamente dos preguntas:
¿Hay algo de malo en usar el AIC en un procedimiento de selección de modelo por pasos como criterio de entrada / salida? En caso afirmativo, ¿cuál sería la alternativa?
¿Tiene algunas referencias que analicen el procedimiento anterior que (también como referencia para un informe final?
Mejor,
Emilia