Como usted dice, los modelos lineales son típicamente más simples que los modelos no lineales, lo que significa que se ejecutan más rápido (construyendo y prediciendo), son más fáciles de interpretar y explicar y, por lo general, directos en las mediciones de errores. Por lo tanto, el objetivo es descubrir si los supuestos de una regresión lineal se mantienen con sus datos (si no es compatible con lineal, entonces vaya con no lineal). Por lo general, repetiría su gráfico de una sola variable con todas las variables individualmente, manteniendo constantes todas las demás variables.
Sin embargo, quizás lo más importante es que desea saber si puede aplicar algún tipo de transformación, interacción variable o variable ficticia para mover sus datos al espacio lineal. Si puede validar las suposiciones, o si conoce sus datos lo suficientemente bien como para aplicar transformaciones o modificaciones bien motivadas o informadas de manera inteligente, entonces desea continuar con esa transformación y utilizar la regresión lineal. Una vez que tenga los residuos, puede trazarlos frente a los valores pronosticados o las variables independientes para decidir si necesita pasar a métodos no lineales.
Hay un excelente desglose de los supuestos de regresión lineal aquí en Duke . Se enumeran los cuatro supuestos principales, y cada uno se desglosa en los efectos sobre el modelo, cómo diagnosticarlo en los datos y las posibles formas de "arreglar" (es decir, transformar o agregar) los datos para que el supuesto se mantenga. Aquí hay un pequeño extracto de la parte superior que resume los cuatro supuestos abordados, pero debe ir allí y leer los desgloses.
Existen cuatro supuestos principales que justifican el uso de modelos de regresión lineal para fines de inferencia o predicción:
(i) linealidad y aditividad de la relación entre variables dependientes e independientes:
(a) El valor esperado de la variable dependiente es una función de línea recta de cada variable independiente, manteniendo las otras fijas.
(b) La pendiente de esa línea no depende de los valores de las otras variables.
(c) Los efectos de diferentes variables independientes sobre el valor esperado de la variable dependiente son aditivos.
(ii) independencia estadística de los errores (en particular, no hay correlación entre> errores consecutivos en el caso de datos de series temporales)
(iii) homocedasticidad (varianza constante) de los errores
(a) versus tiempo (en el caso de datos de series de tiempo)
(b) versus las predicciones
(c) versus cualquier variable independiente
(iv) normalidad de la distribución del error.