Para la predicción, sí puedes considerar los modelos.
$$
y = \ beta_0 + \ beta_1 x_1 + \ cdots + \ beta_p x_p + \ gamma_2 \ hat {y} ^ 2 + \ cdots + \ gamma_m \ hat {y} ^ m + error,
$$
donde $ \ hat {y} $ representa los valores ajustados de OLS del primer paso y $ m $ se elige mediante una validación cruzada.
No he visto este enfoque utilizado antes. Mi opinión personal es que este enfoque no es tan útil como otros utilizados comúnmente (SVM, splines, GAM, etc.). Por ejemplo, si $ p $ es grande (en comparación con el número de observaciones $ n $), es posible que el OLS de primer paso ya esté sobre adaptado, por lo que incluir $ \ hat {y} $ no es práctico. (Sí, puede usar los lazos residuales, pero esa es una historia diferente). Si $ p $ es pequeño, la no linealidad quizás se pueda manejar mejor mediante splines o incluso simplemente aumentando la ecuación con términos cuadráticos y cúbicos de las características. Algunos modelos de aditivos generalizados (GAM) ya están ahí también.
Mi experiencia personal es que la no linealidad no es tan importante (para la predicción utilizando datos económicos). Por lo general, es mucho más importante evitar el ajuste excesivo bien. Para mí, su sugerencia parece ser útil en algunos casos, pero no en muchos.
Dicho esto, no quiero disuadirlo de perseguir este problema, aunque existe una (alta) posibilidad de terminar con la conclusión de que no es muy útil dada la disponibilidad de otros métodos. Por cierto, ya lo sabrías, pero por si acaso, el libro de Hastie, Tibshirani y Friedman (Los elementos del aprendizaje estadístico) es útil.