Estoy buscando un estudio de caso de regresión lineal avanzado que ilustre los pasos necesarios para modelar relaciones complejas y no lineales múltiples utilizando GLM u OLS. Es sorprendentemente difícil encontrar recursos que vayan más allá de los ejemplos básicos de la escuela: la mayoría de los libros que he leído no irán más allá de una transformación logarítmica de la respuesta junto con un BoxCox de un predictor, o una spline natural en el mejor de los casos. Además, todos los ejemplos que he visto hasta ahora abordan cada problema de transformación de datos en un modelo separado, a menudo en un solo modelo predictivo.
Sé lo que es una transformación BoxCox o YeoJohnson. Lo que estoy buscando es un estudio de caso detallado y real en el que la respuesta / relación no sea clara. Por ejemplo, la respuesta no es estrictamente positiva (por lo que no puede usar log o BoxCox), los predictores tienen relaciones no lineales entre ellos y contra la respuesta, y las transformaciones de datos de máxima probabilidad no parecen implicar un estándar de 0.33 o 0.5 exponente. Además, se encuentra que la varianza residual no es constante (nunca lo es), por lo que la respuesta también debe transformarse y se deben elegir entre una regresión de la familia GLM no estándar o una transformación de respuesta. El investigador probablemente tomará decisiones para evitar sobreajustar los datos.
EDITAR
Hasta ahora reuní los siguientes recursos:
- Estrategias de modelado de regresión, F. Harrell
- Serie cronométrica econométrica aplicada, W. Enders
- Modelos lineales dinámicos con R, G. Petris
- Análisis de regresión aplicada, D. Kleinbaum
- Una introducción al aprendizaje estadístico, G. James / D. Witten
Solo leí el último (ISLR) y es un texto muy bueno (un 5 cinco estrellas en mi reloj), aunque más orientado hacia ML que el modelado de regresión avanzado.
También existe este buen puesto en la CV que presenta un caso de regresión desafiante.