Validación cruzada con regresiones de suavizado no paramétricas

Cuando utilizo modelos de regresión, me siento receloso de incumplir un supuesto de asociación lineal; en su lugar, me gusta explorar la forma funcional de las relaciones entre las variables dependientes y explicativas utilizando la regresión de suavizado no paramétrico (por ejemplo , modelos aditivos generalizados , lowess / lowess , suavizadores de línea continua , etc.) antes de estimar un modelo paramétrico utilizando, según corresponda, la regresión de mínimos cuadrados no lineal para estimar parámetros para funciones sugeridas por el modelo no paramétrico.

¿Cuál es una buena manera de pensar acerca de la validación cruzada en la fase de regresión de suavizado no paramétrico de dicho enfoque? Me pregunto si podría encontrar una situación en la que en la muestra aleatoria de retención A una relación aproximada por una función de bisagra lineal de "barra rota" podría ser evidente, mientras que la muestra de retención B sugiere una relación que sería mejor aproximada por una función de bisagra de umbral parabólico.

¿Tomaría un enfoque no exhaustivo? Retener parte de los datos seleccionados al azar, realizar la regresión no paramétrica, interpretar formas funcionales plausibles para el resultado, y repetir esto unas pocas veces (manejables por los humanos) y contar mentalmente formas funcionales plausibles ?

¿O se tomaría un enfoque exhaustivo (p. Ej., LOOCV) y se usaría algún algoritmo para 'suavizar todos los suavizados' y se usaría el más suave para informar formas funcionales plausibles? (Aunque, por reflexión, creo que es poco probable que LOOCV produzca relaciones funcionales muy diferentes, ya que una forma funcional en una muestra lo suficientemente grande es poco probable que sea alterada por un solo punto de datos).

Por lo general, mis aplicaciones incluirán un número manejable de variables predictoras (por ejemplo, unas pocas docenas), pero el tamaño de mis muestras oscilará entre unos pocos cientos y unos cientos de miles. Mi objetivo es producir un modelo intuitivamente comunicado y fácilmente traducido que pueda ser utilizado para hacer predicciones por personas con conjuntos de datos distintos al mío, y que no incluyen las variables de resultado.

Referencias en respuestas muy bienvenidas.

cross-validation nonparametric-regression

— Alexis
fuente

Sería útil aclarar su pregunta: ¿qué desea lograr con la validación cruzada? ¿Determinar qué modelo de suavizado funciona mejor?

— jubo

Gracias. Estoy interesado en generar modelos predictivos paramétricos con validación cruzada. Sin embargo, no me siento cómodo con la suposición de relaciones funcionales lineales entre variables dependientes e independientes. Por lo tanto, el enfoque no lineal paramétrico -> paramétrico que describí anteriormente. Estoy interesado en obtener el CV en el primer paso para validar las formas funcionales sugeridas (por ejemplo, ¿las diferentes submuestras extendidas sugieren una función diferente?).

— Alexis

-1

Me parece que hay dos confusiones en tu pregunta:

Primero, la regresión lineal (mínimo cuadrado) no requiere una relación lineal en las variables independientes , sino en los parámetros .

Por lo tanto, puede estimarse por mínimos cuadrados ordinarios ( es una función lineal de los parámetros , , ), mientras que no puede ( no es lineal en el parámetro ). $y=a + b \cdot x e^{-x} + c \cdot \frac{z}{1 + x^2}$ $y$ $a$ $b$ $c$ $y = a + b \cdot x + b^2 \cdot z$ $y$ $b$
En segundo lugar, ¿cómo se determina un modelo funcional "correcto" a partir de un suavizador, es decir, cómo se pasa del paso 1 al paso 2?

Hasta donde sé, no hay forma de inferir "qué funciones de los regresores usar" a partir de técnicas de suavizado como splines, redes neuronales, etc. Excepto tal vez trazando las salidas suavizadas y determinando las relaciones por intuición, pero eso no sucede No me parece muy robusto, y parece que uno no necesita suavizar esto, solo diagramas de dispersión.

Si su objetivo final es un modelo de regresión lineal, y su problema es que no sabe exactamente qué forma funcional de los regresores se debe usar, sería mejor que ajustara directamente un modelo de regresión lineal regularizado (como LASSO ) con un Expansión de base grande de los regresores originales (como polinomios de los regresores, exponenciales, registros, ...). El procedimiento de regularización debería eliminar los regresores innecesarios, dejándote con un modelo paramétrico (con suerte bueno). Y puede usar la validación cruzada para determinar el parámetro de penalización óptimo (que determina los grados reales de libertad del modelo).

Siempre puede usar regresiones no paramétricas como punto de referencia para el error de generalización, como una forma de verificar que su modelo lineal regularizado prediga datos externos tan bien como un suavizador no paramétrico.

— jubo
fuente

Tu primer punto: me estoy comunicando mal. Estoy interesado en las parametrizaciones no lineales como usted indica (por ejemplo, la función de bisagra:

β_{x} x + β_{h} max (x - θ, 0)

$\beta_{x}x + \beta_{\text{h}}\max(x-\theta,0)$ , donde también es un parámetro a estimar). La motivación para esta pregunta es porque me pregunto: ¿la submuestra de retención A sugerirá, digamos, una función de bisagra de "barra rota", mientras que la submuestra de retención B sugiere una función de bisagra de umbral parabólico? No busco relaciones funcionales "correctas" (posiblemente no lineales en las parametrizaciones), sino relaciones "predictivas". ¿CV tiene un papel que desempeñar aquí?

θ

$\theta$

— Alexis

Su segundo punto: tiene razón al decir que pasar del paso 1 al 2 implica intuición. Sin embargo, uno de los beneficios de utilizar un enfoque "no robusto" (en oposición a los enfoques de ajuste de curvas algorítmicas) es que (en mi experiencia) se puede comunicar la relación entre el resultado y el predictor con una parametrización razonablemente intuitiva (por ejemplo, funciones polinómicas fraccionales que no recuerde una forma / forma particular), con errores que están razonablemente cerca del enfoque algorítmico. Entonces: mejor que los supuestos de parámetros lineales, pero conservando la interpretabilidad para la audiencia.

— Alexis

No me queda claro que LASSO satisfaría mis necesidades: no estoy en una situación .

p > n

$p > n$

— Alexis

Te insto a que reconsideres tu comentario de lazo. Aunque el lazo fue diseñado con en mente, su utilidad no se limita a esa situación, especialmente cuando se busca un modelo parsimonioso (pequeño) con alto poder predictivo. jubo estaba sugiriendo expandir el número de covariables agregando una expansión de base grande, splines o polinomios ortogonales, y luego dejando que el lazo elija los relevantes.

p > n

$p > n$

— Matthew Drury

Sin embargo, no estoy seguro de que un enfoque de lazo para las splines sea realmente ideal, porque tienden a tener un soporte estrecho (para los cúbicos, creo que se admiten entre cuatro nudos consecutivos). Sin embargo, puede funcionar alguna combinación de penalizaciones L1 y L2 con glmnet.

— Matthew Drury