Efecto de la respuesta de conmutación y la variable explicativa en regresión lineal simple


48

Digamos que existe una relación "verdadera" entre y tal que , donde y son constantes y es en ruido normal. Cuando genero datos aleatoriamente a partir de ese código R: y luego me ajusto a un modelo como , obviamente obtengo estimaciones razonablemente buenas para y .yxy=ax+b+ϵabϵx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xab

(x ~ y)Sin embargo, si cambio el papel de las variables como en , y luego reescribo el resultado para como una función de , la pendiente resultante siempre es más pronunciada (ya sea más negativa o más positiva) que la estimada por la regresión. Estoy tratando de entender exactamente por qué es así y agradecería si alguien pudiera darme una idea de lo que está sucediendo allí.yxy ~ x


1
Eso no es cierto en general. Quizás solo estás viendo eso en tus datos. Pegue este código: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); en R varias veces y verás que va en ambos sentidos.
Macro

Eso es un poco diferente de lo que estaba describiendo. En su ejemplo, y no era una función de x en absoluto, por lo que en realidad no hay ninguna "pendiente" (la 'a' en mi ejemplo).
Greg Aponte

lm (y ~ x) se ajusta al modelo por mínimos cuadrados (equivalente a la estimación de ML cuando los errores son normales). Hay una pendiente. y=β0+β1x+ε
Macro

2
Su pregunta se hace y responde (más o menos) en stats.stackexchange.com/questions/13126 y stats.stackexchange.com/questions/18434 . Sin embargo, creo que nadie ha contribuido aún con una explicación simple y clara de las relaciones entre (a) regresión de contra , (b) regresión de contra , (c) análisis de la correlación de e , (d) regresión de errores en variables de e , y (e) ajustando una distribución normal bivariada a . Este sería un buen lugar para tal exposición :-). YXXYXYXY(X,Y)
whuber

2
Por supuesto, Macro es correcto: porque x e y juegan roles equivalentes en la pregunta, qué pendiente es más extrema es una cuestión de azar. Sin embargo, la geometría sugiere (incorrectamente) que cuando invertimos xey en la regresión, deberíamos obtener el recipocal de la pendiente original. Eso nunca sucede excepto cuando x e y son linealmente dependientes. Esta pregunta puede interpretarse como preguntando por qué.
whuber

Respuestas:


23

Dados puntos de datos , en el plano, dibujemos una línea recta . Si predecimos como el valor de , entonces el error es , el error al cuadrado es , y el error al cuadrado total . Le pedimos( x i , y i ) , i = 1 , 2 , ... n y = un x + b una x i + b y i y i ( y i - y i ) = ( y i - un x i - b ) ( y i - a x i - bn(xi,yi),i=1,2,ny=ax+baxi+by^iyi(yiy^i)=(yiaxib)n i = 1 ( y i - a x i - b ) 2(yiaxib)2 i=1n(yiaxib)2

¿Qué opción de y minimiza ?b S = n i = 1 ( y i - a x i - b ) 2abS=i=1n(yiaxib)2

Dado que es la distancia vertical de desde la línea recta, estamos pidiendo la línea de manera que la suma de los cuadrados de las distancias verticales de los puntos desde la línea sea tan pequeña como posible. Ahora es una función cuadrática de y y alcanza su valor mínimo cuando y son tales que De la segunda ecuación, obtenemos donde ( x i , y i ) S a b a b S(yiaxib)(xi,yi)Sabab b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
μy=1
b=1ni=1n(yiaxi)=μyaμx
yixia=( 1μy=1ni=1nyi, μx=1ni=1nxi son el promedio aritmético valores de 's y ' s respectivamente. Sustituyendo en la primera ecuación, obtenemos Por lo tanto, la línea que minimiza se puede expresar como y el valor mínimo de es yixiSy=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
SSSmin=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

Si intercambiamos los roles de e , dibuje una línea , y solicite los valores de y que minimizan es decir, queremos la línea tal que la suma de los cuadrados de las distancias horizontales de los puntos desde el la línea es lo más pequeña posible, entonces obtenemosxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
y el valor mínimo de es T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Tenga en cuenta que ambas líneas pasan por el punto pero las pendientes son son diferentes en general. De hecho, como @whuber señala en un comentario, las pendientes son las mismas cuando todos los puntos encuentran en la misma línea recta. Para ver esto, tenga en cuenta que (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

¡Gracias! abs (correlación) <1 explica por qué la pendiente fue sistemáticamente más pronunciada en el caso inverso.
Greg Aponte

(+1) pero agregué una respuesta con solo una ilustración de lo que acabas de decir, ya que tengo una mente geométrica :)
Elvis

Respuesta de clase (+1)
Digio

39

Solo para ilustrar la respuesta de Dilip: en las siguientes imágenes,

  • los puntos negros son puntos de datos;
  • a la izquierda, la línea negra es la línea de regresión obtenida por y ~ x, que minimiza los cuadrados de la longitud de los segmentos rojos;
  • a la derecha, la línea negra es la línea de regresión obtenida por x ~ y, que minimiza los cuadrados de la longitud de los segmentos rojos.

líneas de regresión

Editar (regresión de mínimos rectángulos)

Si no hay una forma natural de elegir una "respuesta" y una "covariable", sino que las dos variables son interdependientes, es posible que desee conservar un papel simétrico para y ; en este caso puede usar "regresión de mínimos rectángulos".yx

  • escriba , como de costumbre;Y=aX+b+ϵ
  • denotan y las estimaciones de condicional a y de condicional para ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • minimizar, que lleva a i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Aquí hay una ilustración con los mismos puntos de datos, para cada punto, se calcula un "rectángulo" como el producto de la longitud de dos segmentos rojos, y la suma de los rectángulos se minimiza. No sé mucho sobre las propiedades de esta regresión y no encuentro mucho con google.

menos rectángulos


14
Algunas notas: ( 1 ) A menos que me equivoque, parece que la "regresión de mínimos rectángulos" es equivalente a la solución obtenida al tomar el primer componente principal en la matriz después de centrar y reescalar para tener varianza unitaria y luego volver a sustituir. (cont.)X=(y,x)
cardenal

14
(cont.) ( 2 ) Visto de esta manera, es fácil ver que esta "regresión de mínimos rectángulos" es equivalente a una forma de mínimos cuadrados ortogonales (o totales) y, por lo tanto, ( 3 ) Un caso especial de regresión de Deming en los vectores centrados y reescalados que toman . Los mínimos cuadrados ortogonales se pueden considerar como "regresión de mínimos círculos". δ=1
cardenal

2
@cardinal ¡Comentarios muy interesantes! (+1) Creo que el eje mayor (minimizando las distancias perpendiculares entre la línea de registro y todos los puntos, a la PCA) o la regresión reducida del eje mayor , o la regresión de tipo II como se ejemplifica en el paquete lmodel2 R de P Legendre, también son relevantes aquí dado que esas técnicas se utilizan cuando es difícil determinar qué papel (respuesta o predictor) desempeña cada variable o cuando queremos dar cuenta de los errores de medición.
chl

1
@chl: (+1) Sí, creo que tienes razón y la página de Wikipedia en mínimos cuadrados totales enumera varios otros nombres para el mismo procedimiento, no todos con los que estoy familiarizado. Parece remontarse al menos a R. Frisch, Análisis estadístico de confluencia por medio de sistemas completos de regresión , Universitetets Økonomiske Institut, 1934, donde se llamó regresión diagonal .
Cardenal

3
@cardinal Debería haber sido más cuidadoso al leer la entrada de Wikipedia ... Para referencia futura, aquí hay una imagen tomada de Diseño y análisis bioestadístico usando R , por M. Logan (Wiley, 2010; Fig. 8.4, p. 174) , que resume los diferentes enfoques, al igual que las bonitas ilustraciones de Elvis.
chl

13

Solo una breve nota sobre por qué ves la pendiente más pequeña para una regresión. Ambas pendientes dependen de tres números: desviaciones estándar de e ( y ), y correlación entre e ( ). La regresión con como respuesta tiene pendiente y la regresión con como respuesta tiene pendiente , de ahí el La relación entre la primera pendiente y la recíproca de la segunda es igual a .y s x s y x y r y r s yxysxsyxyry xrsxrsysxx r21rsxsyr21

Entonces, cuanto mayor sea la proporción de varianza explicada, más cercanas serán las pendientes obtenidas de cada caso. Tenga en cuenta que la proporción de varianza explicada es simétrica e igual a la correlación al cuadrado en la regresión lineal simple.


1

Una manera simple de ver esto es observar que, si para el modelo verdadero , ejecuta dos regresiones:y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

Luego tenemos, usando :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

Entonces, si obtienes una pendiente más pronunciada o no, solo depende de la relación . Esta relación es igual a, basada en el modelo verdadero supuesto:var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Enlace con otras respuestas

Puede conectar este resultado con las respuestas de otros, que dijeron que cuando , debería ser el recíproco. De hecho, , y también, (sin error de estimación), por lo tanto:R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

Entoncesbxy=1/β


0

Se vuelve interesante cuando también hay ruido en sus entradas (lo que podríamos argumentar es siempre el caso, ningún comando u observación es perfecto).

He construido algunas simulaciones para observar el fenómeno, basado en una relación lineal simple , con ruido gaussiano tanto en x como en y. Generé las observaciones de la siguiente manera (código de Python):x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Vea los diferentes resultados (odr aquí es la regresión de distancia ortogonal , es decir, lo mismo que la regresión de mínimos rectángulos):

ingrese la descripción de la imagen aquí

Todo el código está ahí:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

La línea de regresión no es (siempre) la misma que la relación verdadera

Puede tener alguna relación causal 'verdadera' como

y=a+bx+ϵ

pero las líneas de regresión ajustadas y ~ xo x ~ yno significan lo mismo que esa relación causal (incluso cuando en la práctica la expresión de una de las líneas de regresión puede coincidir con la expresión de la relación 'verdadera' causal)


Relación más precisa entre pendientes

Para dos regresiones lineales simples conmutadas:

Y=a1+b1XX=a2+b2Y

Puede relacionar las pendientes de la siguiente manera:

b1=ρ21b21b2

Entonces las pendientes no son inversas entre sí.


Intuición

La razón es que

  • Las líneas de regresión y las correlaciones no corresponden necesariamente una relación uno a uno con una relación causal.
  • Las líneas de regresión se relacionan más directamente con una probabilidad condicional o la mejor predicción.

Puedes imaginar que la probabilidad condicional se relaciona con la fuerza de la relación. Las líneas de regresión reflejan esto y las pendientes de las líneas pueden ser poco profundas cuando la fuerza de la relación es pequeña o ambas pronunciadas cuando la fuerza de la relación es fuerte. Las pendientes no son simplemente inversas entre sí.

Ejemplo

Si dos variables e relacionan entre sí por alguna relación lineal (causal) Entonces puedes imaginar que no sería bueno revertir por completo esa relación en caso de que desee expresar en base a un valor dado de .XY

Y=a little bit of X+ a lot of error
XY

En lugar de

X=a lot of Y+ a little of error

sería mejor usar también

X=a little bit of Y+ a lot of error

Vea las siguientes distribuciones de ejemplo con sus respectivas líneas de regresión. Las distribuciones son multivariadas normales con yΣ11Σ22=1Σ12=Σ21=ρ

ejemplo

Los valores esperados condicionales (lo que obtendría en una regresión lineal) son

E(Y|X)=ρXE(X|Y)=ρY

y en este caso con una distribución normal multivariada, entonces las distribuciones marginales sonX,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

Entonces puede ver que la variable Y es una parte y una parte de ruido con varianza . Lo mismo es cierto al revés.ρX1ρ2

Cuanto mayor sea el coeficiente de correlación , más cercanas estarán las dos líneas. Pero cuanto menor sea la correlación, menos fuerte será la relación, menos pronunciadas serán las líneas (esto es cierto para ambas líneas y )ρY ~ XX ~ Y


0

La respuesta corta

El objetivo de una regresión lineal simple es obtener las mejores predicciones de la yvariable, dados los valores de la xvariable. Este es un objetivo diferente que tratar de llegar a la mejor predicción de la xvariable, dados los valores de la yvariable.

La regresión lineal simple de y ~ xle da el "mejor" modelo posible para predecir ydado x. Por lo tanto, si se ajusta a un modelo x ~ yy lo invierte algebraicamente, ese modelo solo podría funcionar tan bien como el modelo y ~ x. Pero la inversión de un modelo adecuado x ~ ygeneralmente empeorará en la predicción ydada x, en comparación con el y ~ xmodelo 'óptimo' , porque el " x ~ ymodelo invertido " se creó para cumplir un objetivo diferente.

Ilustración

Imagine que tiene el siguiente conjunto de datos:

ingrese la descripción de la imagen aquí

Cuando ejecuta una regresión OLS de y ~ x, se le ocurre el siguiente modelo

y = 0.167 + 1.5*x

Esto optimiza las predicciones yal hacer las siguientes predicciones, que tienen errores asociados:

ingrese la descripción de la imagen aquí

Las predicciones de la regresión OLS son óptimas en el sentido de que la suma de los valores en la columna más a la derecha (es decir, la suma de los cuadrados) es lo más pequeña posible.

Cuando ejecuta una regresión OLS de x ~ y, se le ocurre un modelo diferente:

x = -0.07 + 0.64*y

Esto optimiza las predicciones de x haciendo las siguientes predicciones, con errores asociados.

ingrese la descripción de la imagen aquí

Nuevamente, esto es óptimo en el sentido de que la suma de los valores de la columna más a la derecha es lo más pequeña posible (igual a 0.071).

Ahora, imagina que intentas invertir el primer modelo y = 0.167 + 1.5*x, usando álgebra, dándote el modelo x = -0.11 + 0.67*x.

Esto le daría las siguientes predicciones y errores asociados:

ingrese la descripción de la imagen aquí

La suma de los valores en la columna de la derecha es 0.074, que es mayor que la suma correspondiente del modelo que obtiene al retroceder x en y, es decir, el x ~ ymodelo. En otras palabras, el " y ~ xmodelo invertido " está haciendo un peor trabajo al predecir x que el modelo OLS de x ~ y.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.