Hay una variedad de problemas con la selección por pasos. Discutí paso a paso en mi respuesta aquí: Algoritmos para la selección automática de modelos . En esa respuesta, no me enfoqué principalmente en los problemas de inferencia, sino en el hecho de que los coeficientes están sesgados (los atletas que prueban son análogos a las variables). Debido a que los coeficientes se desvían de sus valores verdaderos, el error predictivo fuera de la muestra debe aumentarse, ceteris paribus.
Considere la noción del equilibrio de sesgo-varianza . Si piensa en la precisión de su modelo como la varianza de los errores de predicción (es decir, MSE:1 / n ∑ (yyo-y^yo)2), el error de predicción esperado es la suma de tres fuentes diferentes de variación:
Estos tres términos son la varianza de su estimación de la función, el cuadrado del sesgo de la estimación , y el error irreducible en el proceso de generación de datos, respectivamente. (Esto último existe porque los datos no son deterministas: nunca obtendrá predicciones más cercanas que eso en promedio). Las dos primeras provienen del procedimiento utilizado para estimar su modelo. Por defecto, podríamos pensar que OLS es el procedimiento utilizado para estimar el modelo, pero es más correcto decir que la selección por pasos sobre las estimaciones de OLS
mi[ (yyo-y^yo)2] =Var(F^) + [ B i a s (F^)]2+ V a r ( ε )
Es el procedimiento. La idea del equilibrio entre sesgo y varianza es que, si bien un modelo explicativo enfatiza correctamente la imparcialidad, un modelo predictivo puede beneficiarse al usar un procedimiento sesgado si la varianza se reduce lo suficiente (para una explicación más completa, ver:
¿Qué problema resuelven los métodos de contracción? ? )
Con esas ideas en mente, el punto de mi respuesta vinculado en la parte superior es que se induce un gran sesgo. En igualdad de condiciones, eso empeorará las predicciones de la muestra. Desafortunadamente, la selección por pasos no reduce la varianza de la estimación. En el mejor de los casos, su varianza es la misma, pero es muy probable que empeore la varianza también (por ejemplo, @Glen_b informa que solo el 15.5% de las veces fueron las variables correctas incluso elegidas en un estudio de simulación discutido aquí: ¿Por qué son valores p engañosos después de realizar una selección por pasos? ).