Cuando utilizo modelos de regresión, me siento receloso de incumplir un supuesto de asociación lineal; en su lugar, me gusta explorar la forma funcional de las relaciones entre las variables dependientes y explicativas utilizando la regresión de suavizado no paramétrico (por ejemplo , modelos aditivos generalizados , lowess / lowess , suavizadores de línea continua , etc.) antes de estimar un modelo paramétrico utilizando, según corresponda, la regresión de mínimos cuadrados no lineal para estimar parámetros para funciones sugeridas por el modelo no paramétrico.
¿Cuál es una buena manera de pensar acerca de la validación cruzada en la fase de regresión de suavizado no paramétrico de dicho enfoque? Me pregunto si podría encontrar una situación en la que en la muestra aleatoria de retención A una relación aproximada por una función de bisagra lineal de "barra rota" podría ser evidente, mientras que la muestra de retención B sugiere una relación que sería mejor aproximada por una función de bisagra de umbral parabólico.
¿Tomaría un enfoque no exhaustivo? Retener parte de los datos seleccionados al azar, realizar la regresión no paramétrica, interpretar formas funcionales plausibles para el resultado, y repetir esto unas pocas veces (manejables por los humanos) y contar mentalmente formas funcionales plausibles ?
¿O se tomaría un enfoque exhaustivo (p. Ej., LOOCV) y se usaría algún algoritmo para 'suavizar todos los suavizados' y se usaría el más suave para informar formas funcionales plausibles? (Aunque, por reflexión, creo que es poco probable que LOOCV produzca relaciones funcionales muy diferentes, ya que una forma funcional en una muestra lo suficientemente grande es poco probable que sea alterada por un solo punto de datos).
Por lo general, mis aplicaciones incluirán un número manejable de variables predictoras (por ejemplo, unas pocas docenas), pero el tamaño de mis muestras oscilará entre unos pocos cientos y unos cientos de miles. Mi objetivo es producir un modelo intuitivamente comunicado y fácilmente traducido que pueda ser utilizado para hacer predicciones por personas con conjuntos de datos distintos al mío, y que no incluyen las variables de resultado.
Referencias en respuestas muy bienvenidas.