¿Cuándo transformar las variables predictoras al hacer la regresión múltiple?

Actualmente estoy tomando mi primera clase de regresión lineal aplicada a nivel de posgrado, y estoy luchando con las transformaciones de las variables predictoras en la regresión lineal múltiple. El texto que estoy usando, Kutner et al "Modelos estadísticos lineales aplicados" no parece cubrir la pregunta que tengo. (además de sugerir que existe un método Box-Cox para transformar múltiples predictores).

Cuando se enfrenta a una variable de respuesta y varias variables predictoras, ¿qué condiciones se esfuerzan por cumplir con cada variable predictiva? Entiendo que, en última instancia, buscamos la constancia de la varianza del error y los errores normalmente distribuidos (al menos en las técnicas que me han enseñado hasta ahora). He recibido muchos ejercicios, donde la solución fue, por ejemplo y ~ x1 + (1/x2) + log(x3), dónde uno o más predictores se transformó.

Entendí la justificación bajo una regresión lineal simple, ya que era fácil observar y ~ x1 y los diagnósticos relacionados (parcelas qq de residuales, residuales vs. y, residuales vs x, etc.) y probar si y ~ log ( x1) se ajusta mejor a nuestros supuestos.

¿Hay un buen lugar para comenzar a comprender cuándo transformar un predictor en presencia de muchos predictores?

Gracias de antemano. Mate

data-transformation multiple-regression

— Mate
fuente

Supongo que su pregunta es: ¿cómo detecta cuándo existen las condiciones que hacen que las transformaciones sean apropiadas, en lugar de cuáles son las condiciones lógicas ? Siempre es bueno sujetar los análisis de datos con la exploración, especialmente la exploración de datos gráficos. (Se pueden realizar varias pruebas, pero aquí me enfocaré en EDA gráfica).

Las gráficas de densidad del núcleo son mejores que los histogramas para una visión general inicial de la distribución univariada de cada variable. Con múltiples variables, una matriz de diagrama de dispersión puede ser útil. Lowess también es siempre aconsejable al principio. Esto le dará una visión rápida y sucia de si las relaciones son aproximadamente lineales. El paquete de autos de John Fox combina útilmente estos:

library(car)
scatterplot.matrix(data)

Asegúrese de tener sus variables como columnas. Si tiene muchas variables, los gráficos individuales pueden ser pequeños. Maximice la ventana de trazado y los diagramas de dispersión deben ser lo suficientemente grandes como para seleccionar los gráficos que desea examinar individualmente, y luego hacer gráficos individuales. P.ej,

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

Después de ajustar un modelo de regresión múltiple, aún debe trazar y verificar sus datos, al igual que con la regresión lineal simple. Las gráficas QQ para los residuos son tan necesarias, y usted podría hacer una matriz de dispersión de sus residuos contra sus predictores, siguiendo un procedimiento similar al anterior.

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

Si algo parece sospechoso, complételo individualmente y agréguelo abline(h=0)como guía visual. Si tiene una interacción, puede crear una variable X [, 1] * X [, 2] y examinar los residuos con respecto a eso. Del mismo modo, puede hacer un diagrama de dispersión de los residuos frente a X [, 3] ^ 2, etc. Otros tipos de gráficos distintos de los residuos frente a x que desee pueden realizarse de manera similar. Tenga en cuenta que todos estos ignoran las otras dimensiones x que no se están trazando. Si sus datos están agrupados (es decir, de un experimento), puede hacer gráficos parciales en lugar de / además de gráficos marginales.

Espero que ayude.

— gung - Restablece a Monica
fuente

Recomendaría un enfoque más directo: use splines de regresión para modelar los efectos de los predictores para (1) no asumir la linealidad y (2) estimar todas las transformaciones simultáneamente. Esto es similar a la regresión cuadrática: agregar un término cuadrado para todos los predictores. Con splines cúbicas restringidas, por ejemplo, uno agrega una o más funciones de base no lineales al modelo para cada predictor que no se sabe que opera linealmente.

— Frank Harrell el

@Frank A menudo me gustan las splines cúbicas restringidas. Lo único negativo es uno de interpretación, que es un poco complicado y a menudo apaga a mis clientes. Agregar un término polinomial (después del centrado) parece ser más interpretable

— Peter Flom - Restablecer a Monica

Gracias a todos por el aporte, lo agradezco enormemente. Creo que actualmente me estás dando demasiado crédito. Mi pregunta se centra realmente en qué buscar en predictores individuales para saber cuándo / si una transformación es aplicable. Por ejemplo, si tengo un modelo estrictamente aditivo, con 3 predictores, ¿cómo haría para determinar una transformación adecuada? En el caso de los predictores múltiples, ¿estamos generalmente luchando por los mismos principios que buscamos en la regresión lineal simple? (es decir, residuos favorables vs. gráfico predicho y qqplot de residuos).

— Matt

Las splines de regresión de Peter no son mucho más complejas que las cuadráticas. ¿Quién sabe cómo interpretar el coeficiente de edad cuando age ^ 2 está en el modelo de todos modos? Y no veo dónde ayuda el centrado. Interpreto los ajustes de spline con gráficos, que les gustan a mis colaboradores. Matt casi siempre se necesita una transformación. Es solo una cuestión de adecuación del tamaño de la muestra para estimar suficientes parámetros para ajustar los efectos no lineales. Las splines de regresión estiman directamente las transformaciones y conducen a intervalos de confianza apropiados que son penalizados por "miradas de datos". Los residuos implican un enfoque indirecto.

— Frank Harrell

Lo siento, todavía estoy acostumbrado a publicar aquí. Por favor perdona. Para exponer mi último comentario: un ejemplo reciente que analicé en un texto tenía el modelo resultante y ~ x1 + log (x2), y la única nota sobre la transformación es "era evidente que x2 era adecuado para una transformación logarítmica ". Estoy tratando de mejorar mi sentido de cuándo las transformaciones son aplicables. ¿Es suficiente mirar las gráficas y ~ x_i y proceder como lo haríamos en el caso del predictor único? ¿Qué más debo considerar?

— Matt