Aunque los méritos de la selección de modelos por pasos se han discutido anteriormente, no me queda claro qué es exactamente " selección de modelos por pasos " o " regresión por pasos ". Pensé que lo entendía, pero ya no estoy tan seguro.
Entiendo que estos dos términos son sinónimos (al menos en un contexto de regresión), y que se refieren a la selección del mejor conjunto de variables predictoras en un modelo "óptimo" o "mejor" , dados los datos. (Puede encontrar la página de Wikipedia aquí y otra descripción general potencialmente útil aquí ).
Según varios subprocesos anteriores (por ejemplo, aquí: Algoritmos para la selección automática de modelos ), parece que la selección de modelos por pasos se considera un pecado capital. Y, sin embargo, parece ser utilizado todo el tiempo, incluso por lo que parecen ser estadísticos muy respetados. ¿O estoy mezclando la terminología?
Mis preguntas principales son:
Por "selección de modelo por pasos" o "regresión por pasos", nos referimos a:
A ) ¿hacer pruebas de hipótesis secuenciales como pruebas de razón de probabilidad o mirar valores p? (Aquí hay una publicación relacionada: ¿Por qué los valores p son engañosos después de realizar una selección por pasos? ) ¿Es esto lo que significa y por qué es malo?
O
B ) ¿también consideramos que la selección basada en AIC (o criterio de información similar) es igualmente mala? De la respuesta en Algoritmos para la selección automática de modelos , parece que esto también es criticado. Por otro lado, Whittingham et al. (2006; pdf ) 1 parece sugerir que la selección de variables basada en el enfoque de la información teórica (IT) es diferente de la selección por pasos (y parece ser un enfoque válido) ...?Y esta es la fuente de toda mi confusión.
Para el seguimiento, si la selección basada en AIC cae dentro de "paso a paso" y se considera inapropiada, entonces aquí hay preguntas adicionales:
Si este enfoque es incorrecto, ¿por qué se enseña en libros de texto, cursos universitarios, etc.? ¿Está todo mal?
¿Cuáles son buenas alternativas para seleccionar qué variables deben permanecer en el modelo? He encontrado recomendaciones para usar conjuntos de datos de validación cruzada y pruebas de capacitación, y LASSO.
Creo que todos pueden estar de acuerdo en que arrojar indiscriminadamente todas las variables posibles en un modelo y luego hacer una selección por pasos es problemático. Por supuesto, un juicio sensato debería guiar lo que entra inicialmente. Pero, ¿qué sucede si ya comenzamos con un número limitado de posibles variables predictoras basadas en algún conocimiento (digamos biológico), y todos estos predictores podrían estar explicando nuestra respuesta? ¿Seguiría siendo defectuoso este enfoque de selección de modelo? También reconozco que la selección del "mejor" modelo podría no ser apropiada si los valores de AIC entre los diferentes modelos son muy similares (y la inferencia multimodelo puede aplicarse en tales casos). Pero, ¿sigue siendo problemático el problema subyacente del uso de la selección por pasos basada en AIC?
Si estamos buscando ver qué variables parecen explicar la respuesta y de qué manera, ¿por qué este enfoque es incorrecto, ya que sabemos que "todos los modelos están equivocados, pero algunos son útiles"?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB y Freckleton, RP (2006). ¿Por qué todavía utilizamos modelos paso a paso en ecología y comportamiento? Journal of Animal Ecology, 75, págs. 1182–1189.