¿Por qué es importante hacer una distinción entre regresión "lineal" y "no lineal"?

12

¿Cuál es la importancia de la distinción entre modelos lineales y no lineales? La pregunta Modelo lineal no lineal versus generalizado: ¿Cómo se refiere a la regresión logística, de Poisson, etc.? y su respuesta fue una aclaración extremadamente útil de la linealidad / no linealidad de los modelos lineales generalizados. Parece críticamente importante distinguir los modelos lineales de los no lineales, pero no me queda claro por qué. Por ejemplo, considere estos modelos de regresión:

\begin{aligned} (1) & E [Y ∣ X] & = β_{0} + β_{1} X \\ (2) & E [Y ∣ X] & = β_{0} + β_{1} X + β_{2} X^{2} \\ (3) & E [Y ∣ X] & = β_{0} + β_{1}^{2} X \\ (4) & E [Y ∣ X] & = {1 + \exp (- [β_{0} + β_{1} X]}^{- 1} \end{aligned}

$\begin{align} E[Y \mid X] & = \beta_0 + \beta_1 X \tag{1} \\ E[Y \mid X] & = \beta_0 + \beta_1 X + \beta_2 X^2 \tag{2} \\ E[Y \mid X] & = \beta_0 + \beta_1^2 X \tag{3} \\ E[Y \mid X] & = \{1+\exp(-[ \beta_0 + \beta_1 X]\}^{-1} \tag{4} \end{align}$

Ambos modelos 1 y 2 son lineales, y las soluciones a existen en forma cerrada, que se encuentran fácilmente utilizando un estimador estándar de MCO. No es así para los modelos 3 y 4, que no son lineales porque (algunos de) los derivados de wrt siguen siendo funciones de . $\beta$ $E[Y\mid X]$ $\beta$ $\beta$

Una solución simple para estimar en el Modelo 3 es linealizar el modelo estableciendo , estimar utilizando un modelo lineal y luego calcular $\beta_1$ $\gamma = \beta_1^2$ $\gamma$ . $\beta_1 = \sqrt{\gamma}$

Para estimar los parámetros en el Modelo 4, podemos suponer que sigue una distribución binomial (miembro de la familia exponencial) y, utilizando el hecho de que la forma logística del modelo es el enlace canónico, linealiza las rhs del modelo. Esta fue la contribución fundamental de Nelder y Wedderburn . $Y$

Pero, ¿por qué esta no linealidad es un problema en primer lugar? ¿Por qué no se puede simplemente usar un algoritmo iterativo para resolver el Modelo 3 sin linealizar con la función de raíz cuadrada, o el Modelo 4 sin invocar GLM? Sospecho que antes del poder computacional generalizado, los estadísticos intentaban linealizar todo. Si es cierto, ¿entonces quizás los "problemas" introducidos por la no linealidad son un remanente del pasado? ¿Las complicaciones introducidas por los modelos no lineales son meramente computacionales, o existen otros problemas teóricos que hacen que los modelos no lineales sean más difíciles de ajustar a los datos que los modelos lineales?

linear-model nonlinear-regression nonlinear

— usuario1849779
fuente

1

Si desea estimar

, simplemente estimar

( regresión lineal simple) y luego tomar

E [Y | X] = β_{0} + β_{1}^{2} X

$E[Y|X] = \beta_0 + \beta_1^2 X$

E [Y | X] = β_{0} + γ X

$E[Y|X] = \beta_0 + \gamma X$

...

β_{1} = \sqrt{γ}

$\beta_1 = \sqrt{\gamma}$

— Tim

@Tim, gracias por el comentario. Era consciente de esta transformación como una posibilidad, pero estaba tratando de hacer una pregunta algo diferente. He editado sustancialmente la pregunta, con suerte para mejor.

— user1849779

5

Puedo ver dos diferencias principales:

La linealidad lo hace simple y robusto. Por ejemplo, el OLS (lineal) es un estimador imparcial bajo una distribución de perturbación desconocida. En general, GLM y modelos no lineales no lo son. OLS también es robusto para varios modelos de estructura de error (efectos aleatorios, agrupamiento, etc.) donde, en modelos no lineales, normalmente debe asumir la distribución exacta de estos términos.
Resolverlo es fácil: solo un par de multiplicaciones matriciales + 1 inversa. Esto significa que casi siempre puede resolverlo, incluso en casos donde la función objetivo es casi plana (multicolinealidad). Los métodos iterativos pueden no converger en casos tan problemáticos (que, en cierto sentido, es algo bueno). La solución fácil puede o puede No será menos un problema hoy en día. Las computadoras se vuelven más rápidas, pero los datos se hacen más grandes. ¿Alguna vez intentó ejecutar una regresión logit en observaciones 1G?

Además de eso, los modelos lineales son más fáciles de interpretar. En los modelos lineales, los efectos marginales son iguales a los coeficientes y son independientes de los valores de X (aunque los términos polinómicos arruinan esta simplicidad).

— Ott Toomet
fuente

I la distinción como principalmente una de conveniencia o uso histórico.

— Martha

2

Muchos modelos en biología (y otros campos) son no lineales, por lo que se ajustan mejor con la regresión no lineal. Las matemáticas son muy diferentes, por supuesto. Pero desde el punto de vista del analista de datos, realmente solo hay una diferencia importante.

La regresión no lineal requiere valores estimados iniciales para cada parámetro. Si estas estimaciones iniciales están muy lejos, el programa de regresión no lineal puede converger en un mínimo falso y dar resultados inútiles o engañosos.

— Harvey Motulsky
fuente

2

Esto ciertamente es parte de la respuesta. Pero, al afirmar que la única diferencia es algo que equivale a un tecnicismo menor, puede estar minimizando demasiado los problemas de los modelos no lineales. Por ejemplo, algunos simples que surgen en biología pueden tener mínimos locales muy diferentes, todos los cuales están cerca de los mínimos globales. Este problema cualitativo fundamental no se resuelve con una potencia informática mejorada o mejores técnicas de optimización: la naturaleza misma de muchos modelos no lineales es tan diferente de los modelos lineales que requieren un pensamiento profundo sobre su significado y su interpretación.

— whuber

1

En primer lugar, voy a sustituir la palabra 'modelo' por la palabra 'regresión'. Creo que para ambas palabras uno realmente pregunta cuáles son las ecuaciones relevantes que definen el modelo y cuáles son las hipótesis relevantes que relacionan los valores de la variable dependiente y los valores predichos por la ecuación / modelo. Creo que el término "modelo" es más estándar. Si estás de acuerdo con eso, sigue leyendo.

$\phi_1, \ldots, \phi_n$ $\phi_1, \ldots, \phi_n$ $\phi_i = x^i$ $\epsilon_i = y_i - \sum a_{ij}x^j$ es gaussiano En mi opinión, wikipedia tiene una explicación muy razonable de los modelos lineales generales. Creo que esta es la oración clave: "El GLM generaliza la regresión lineal al permitir que el modelo lineal se relacione con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho. " Entonces, un glm permite un término de error más general. Esto permite una mayor flexibilidad en el modelado. El precio ? Calcular el modelo correcto es más difícil. Uno ya no tiene un método simple para calcular los coeficientes. Los coeficientes de una regresión lineal se pueden encontrar minimizando una función cuadrática que tiene un mimimum único. En palabras de Borat, por una película, no tanto. Uno tiene que calcular el mle,

— meh
fuente

1

Un modelo no lineal también puede suponer que los residuos se muestrean a partir de una distribución gaussiana. Un ejemplo simple es la actividad enzimática (Y) en función de la concentración del sustrato (X). Y = Vmax * X / (Km + X) Es común y razonable suponer que los residuos son gaussianos, sin embargo, esta es una ecuación no lineal que se ajusta a la regresión no lineal.

— Harvey Motulsky

2

Los modelos no lineales comprenden mucho más que GLM. Los GLM son populares porque son "casi" lineales en los parámetros: toda la no linealidad se limita a una función de una sola variable, el "enlace". Esto permite soluciones relativamente eficientes y confiables. Otros modelos no lineales son mucho menos manejables. El concepto de linealidad está en gran medida separado de la naturaleza de los residuos, aunque en algunos casos es beneficioso distinguir los residuos aditivos de otras formas de variación.

— whuber