Por lo que entiendo, la selección de variables basada en valores p (al menos en el contexto de regresión) es altamente defectuosa. Parece que la selección variable basada en AIC (o similar) también se considera defectuosa por algunos, por razones similares, aunque esto parece un poco confuso (por ejemplo, vea mi pregunta y algunos enlaces sobre este tema aquí: ¿Qué es exactamente la "selección de modelo por pasos"? )
Pero supongamos que elige uno de estos dos métodos para elegir el mejor conjunto de predictores en su modelo.
Burnham y Anderson 2002 (Selección de modelos e inferencia multimodelo: un enfoque teórico de la información práctica, página 83) afirman que no se debe mezclar la selección de variables basada en AIC con la basada en pruebas de hipótesis : "Las pruebas de hipótesis nulas y los enfoques teóricos de la información deberían no se usan juntos; son paradigmas de análisis muy diferentes ".
Por otro lado, Zuur et al. 2009 (Modelos de efectos mixtos con extensiones en ecología con R, página 541) parecen recomendar el uso de AIC para encontrar primero el modelo óptimo y luego realizar un "ajuste fino" mediante pruebas de hipótesis : "La desventaja es que el AIC puede ser conservador , y es posible que deba aplicar algunos ajustes (mediante el uso de pruebas de hipótesis del enfoque uno) una vez que el AIC haya seleccionado un modelo óptimo ".
Puedes ver cómo esto deja al lector de ambos libros confundido sobre qué enfoque seguir.
1) ¿Son estos simplemente "campos" diferentes de pensamiento estadístico y un tema de desacuerdo entre los estadísticos? ¿Es uno de estos enfoques simplemente "desactualizado" ahora, pero se consideró apropiado al momento de escribir? ¿O simplemente uno está equivocado desde el principio?
2) ¿Habría un escenario en el que este enfoque sería apropiado? Por ejemplo, vengo de un entorno biológico, donde a menudo intento determinar qué variables, si las hay, parecen afectar o impulsar mi respuesta. A menudo tengo varias variables explicativas candidatas y estoy tratando de encontrar cuáles son "importantes" (en términos relativos). Además, tenga en cuenta que el conjunto de variables predictoras candidatas ya se reduce a las que se considera que tienen cierta relevancia biológica, pero esto aún puede incluir 5-20 predictores candidatos.