¿Cuál es la diferencia entre la regresión lineal en y con x y x con y?


97

El coeficiente de correlación de Pearson de xey es el mismo, ya sea que calcule pearson (x, y) o pearson (y, x). Esto sugiere que hacer una regresión lineal de y dado x o x dado y debería ser lo mismo, pero no creo que ese sea el caso.

¿Alguien puede arrojar luz cuando la relación no es simétrica y cómo se relaciona con el coeficiente de correlación de Pearson (que siempre pienso que resume la mejor línea de ajuste)?


1
Cada matriz de correlación será simétrica porque Cov(X,y)=Cov(y,X) . Te animo a resolver las matemáticas para ver que esto es cierto. Si sabe que la relación entre X e y (o cualesquiera que sean las variables de interés) no es simétrica a priori , podría ser beneficioso buscar otros métodos de análisis.
Phillip Cloud

14
Se hicieron puntos interesantes sobre una pregunta relacionada, Efecto de respuesta de cambio y variable explicativa en regresión lineal simple .
chl

Respuestas:


159

La mejor manera de pensar en esto es imaginar un diagrama de puntos de dispersión con en el eje vertical yx representada por el eje horizontal. Dado este marco, verá una nube de puntos, que puede ser vagamente circular, o puede alargarse en una elipse. Lo que intenta hacer en la regresión es encontrar lo que podría llamarse la "línea de mejor ajuste". Sin embargo, si bien esto parece sencillo, tenemos que descubrir qué entendemos por "mejor", y eso significa que debemos definir qué sería para una línea ser buena, o para que una línea sea mejor que otra, etc. Específicamente , debemos estipular una función de pérdidayX. Una función de pérdida nos da una manera de decir cuán "malo" es algo y, por lo tanto, cuando minimizamos eso, hacemos que nuestra línea sea lo más "buena" posible, o encontramos la línea "mejor".

Tradicionalmente, cuando realizamos un análisis de regresión, encontramos estimaciones de la pendiente e intercepción para minimizar la suma de los errores al cuadrado . Estos se definen como sigue:

SSE=i=1N(yi(β^0+β^1xi))2

En términos de nuestro diagrama de dispersión, esto significa que estamos minimizando las distancias verticales (suma del cuadrado) entre los puntos de datos observados y la línea.

ingrese la descripción de la imagen aquí

Por otro lado, es perfectamente razonable hacer retroceder sobre y , pero en ese caso, pondríamos x en el eje vertical, y así sucesivamente. Si mantenemos nuestra gráfica tal como está (con x en el eje horizontal), retroceder x sobre y (nuevamente, usando una versión ligeramente adaptada de la ecuación anterior con x e y conmutadas) significa que estaríamos minimizando la suma de las distancias horizontalesxyxxxyxyentre los puntos de datos observados y la línea. Esto suena muy similar, pero no es exactamente lo mismo. (La forma de reconocer esto es hacerlo en ambos sentidos, y luego convertir algebraicamente un conjunto de estimaciones de parámetros en los términos del otro. Comparando el primer modelo con la versión reorganizada del segundo modelo, es fácil ver que son no es el mísmo.)

ingrese la descripción de la imagen aquí

Tenga en cuenta que de ninguna manera produciría la misma línea que trazaríamos intuitivamente si alguien nos entregara un trozo de papel cuadriculado con puntos trazados en él. En ese caso, dibujaríamos una línea recta a través del centro, pero al minimizar la distancia vertical se obtiene una línea que es ligeramente más plana (es decir, con una pendiente menos profunda), mientras que al minimizar la distancia horizontal se obtiene una línea que es ligeramente más empinada .

Una correlación es simétrica; está tan correlacionado con y como y está con x . Sin embargo, la correlación producto-momento de Pearson puede entenderse dentro de un contexto de regresión. El coeficiente de correlación, r , es la pendiente de la línea de regresión cuando ambas variables se han estandarizado primero. Es decir, primero restaste la media de cada observación y luego dividiste las diferencias por la desviación estándar. La nube de puntos de datos ahora estará centrada en el origen, y la pendiente sería la misma si retrocediera y en x , o x en yxyyxryxxy (pero tenga en cuenta el comentario de @DilipSarwate a continuación).

ingrese la descripción de la imagen aquí

Ahora, ¿por qué importa esto? Usando nuestra función de pérdida tradicional, estamos diciendo que todo el error está en solo una de las variables (a saber, ). Es decir, estamos diciendo que x se mide sin error y constituye el conjunto de valores que nos interesan, pero que y tiene un error de muestreoyxy. Esto es muy diferente de decir lo contrario. Esto fue importante en un episodio histórico interesante: a fines de los años 70 y principios de los 80 en los EE. UU., Se hizo el caso de que había discriminación contra las mujeres en el lugar de trabajo, y esto fue respaldado con análisis de regresión que mostraban que las mujeres con los mismos antecedentes (p. Ej. , calificaciones, experiencia, etc.) se pagaron, en promedio, menos que los hombres. Los críticos (o simplemente las personas que fueron muy minuciosas) razonaron que si esto fuera cierto, las mujeres a las que se les pagaba por igual con los hombres tendrían que estar más calificadas, pero cuando se verificó esto, se descubrió que, aunque los resultados fueron "significativos" cuando evaluados de una manera, no fueron 'significativos' cuando se verificaron de la otra manera, lo que hizo que todos los involucrados se pusieran nerviosos. Ver aquí para un famoso artículo que trató de aclarar el problema.


(Actualizado mucho más tarde) Aquí hay otra forma de pensar sobre esto que aborda el tema a través de las fórmulas en lugar de visualmente:

La fórmula para la pendiente de una línea de regresión simple es una consecuencia de la función de pérdida que se ha adoptado. Si está utilizando la función estándar de pérdida de mínimos cuadrados ordinarios (mencionada anteriormente), puede derivar la fórmula para la pendiente que ve en cada libro de texto de introducción. Esta fórmula se puede presentar en varias formas; una de las cuales llamo la fórmula 'intuitiva' para la pendiente. Considere esta forma, tanto para la situación en la que está en regresión en x , y en el que están retrocediendo x en y : y  en  x ß 1 = Cov ( x , y )yxxy Ahora, espero que sea obvio que no serían lo mismo a menos queVar(x) seaigual aVar(y). Si las variacionessoniguales (p. Ej., Porque estandarizó las variables primero), también lo son las desviaciones estándar y, por lo tanto, las variaciones también serían iguales aSD(x)SD(y). En este caso,β1sería igual de Pearsonr, que es la misma de cualquier manera, en virtuddel principio de conmutatividad: correlacionar 

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Var(x)Var(y)Dakota del Sur(X)Dakota del Sur(y)β^1r
r=Cov(X,y)Dakota del Sur(X)Dakota del Sur(y)correlacionando X con y                           r=Cov(y,X)Dakota del Sur(y)Dakota del Sur(X)correlacionando y con X

2
+1 por mención de minimizar la función de pérdida. Las alternativas a las distancias verticales u horizontales incluyen el uso de la distancia perpendicular a la línea o al área del rectángulo, que producen diferentes líneas de regresión.
Henry

77
yXXyXy
Dilip Sarwate

44
yXXXyX

1
¿Podría decir que en el caso de la correlación, la distancia ortogonal entre los puntos y la línea se está minimizando? (Me refiero a la línea que va del punto a la línea de "regresión" y se para ortogonalmente sobre ella).
vonjd

1
La correlación de Pearson no se ajusta a una línea, @vonjd. Resulta que es equivalente a la pendiente de una línea de mínimos cuadrados ajustados cuando los datos se estandarizaron primero. El primer componente principal, cuando solo hay 2 variables y los datos se estandarizaron primero, es una especie de línea ajustada que minimiza las distancias ortogonales. HTH
gung - Restablece a Monica

12

Voy a ilustrar la respuesta con algo de Rcódigo y salida.

Primero, construimos una distribución normal aleatoria y, con una media de 5 y una DE de 1:

y <- rnorm(1000, mean=5, sd=1)

A continuación, creo a propósito una segunda distribución normal aleatoria x, que es simplemente 5 veces el valor de ycada uno y:

x <- y*5

Por diseño, tenemos una correlación perfecta de xy y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Sin embargo, cuando hacemos una regresión, estamos buscando una función que se relacione xy, ypor lo tanto, los resultados de los coeficientes de regresión dependen de cuál usamos como variable dependiente y cuál usamos como variable independiente. En este caso, no encajamos una intersección porque hicimos xuna función de ysin variación aleatoria:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Entonces las regresiones nos dicen eso y=0.2xy aquello x=5y, que por supuesto son equivalentes. El coeficiente de correlación simplemente nos muestra que hay una coincidencia exacta en los niveles de cambio de unidad entre xy y, de modo que (por ejemplo) un aumento de 1 unidad ysiempre produce un aumento de 0.2 unidades x.


6

La idea de que, dado que la correlación de Pearson es la misma si hacemos una regresión de x contra y, o y contra x es buena, deberíamos obtener la misma regresión lineal es buena. Es solo un poco incorrecto, y podemos usarlo para comprender lo que realmente está ocurriendo.

Esta es la ecuación para una línea, que es lo que estamos tratando de obtener de nuestra regresión.

ingrese la descripción de la imagen aquí

La ecuación para la pendiente de esa línea está impulsada por la correlación de Pearson

ingrese la descripción de la imagen aquí

Esta es la ecuación para la correlación de Pearson. Es lo mismo si retrocedemos x contra y o y contra x

ingrese la descripción de la imagen aquí

Sin embargo, cuando miramos hacia atrás en nuestra segunda ecuación para pendiente, vemos que la correlación de Pearson no es el único término en esa ecuación. Si estamos calculando y contra x, también tenemos la desviación estándar de muestra de y dividida por la desviación estándar de muestra de x. Si tuviéramos que calcular la regresión de x contra y tendríamos que invertir esos dos términos.


4

En preguntas como esta, es fácil quedar atrapado en los problemas técnicos, por lo que me gustaría centrarme específicamente en la pregunta en el título del hilo que pregunta: ¿Cuál es la diferencia entre la regresión lineal en y con x y x con y ?

salario=si0 0+si1 Años de educación+error

Años de educación=si0 0+si1 salario+error

Estoy seguro de que puede pensar en más ejemplos como este (fuera del ámbito de la economía también), pero como puede ver, la interpretación del modelo puede cambiar de manera bastante significativa cuando cambiamos de retroceder y en x a x en y.

Entonces, para responder a la pregunta: ¿Cuál es la diferencia entre la regresión lineal en y con x y x con y? , podemos decir que la interpretación de la ecuación de regresión cambia cuando regresamos x en y en lugar de y en x. No debemos pasar por alto este punto porque un modelo que tiene una interpretación sólida puede convertirse rápidamente en uno que tenga poco o ningún sentido.


3

Hay un fenómeno muy interesante sobre este tema. Después de intercambiar x e y, aunque el coeficiente de regresión cambia, pero el estadístico t / estadístico F y el nivel de significación para el coeficiente no cambian. Esto también es cierto incluso en regresión múltiple, donde intercambiamos y con una de las variables independientes.

Se debe a una delicada relación entre el estadístico F y el coeficiente de correlación (parcial). Esa relación realmente toca el núcleo de la teoría del modelo lineal. Hay más detalles sobre esta conclusión en mi cuaderno: ¿Por qué intercambiar y y x no tiene ningún efecto sobre p?



2
El artículo "Por qué el intercambio y y x no tiene efecto en p" ya no está aquí. ¿Lo volverás a agregar?
JetLag el

1

Ampliando la excelente respuesta de @gung:

ryXXy

β^1yonorteXβ^1Xonortey=Cov(X,y)Var(X)Cov(y,X)Var(y)=El |Cov(X,y)El |Dakota del Sur(X)Dakota del Sur(y)=El |rEl |
r
r=syosolnorte(β^1yonorteX)β^1yonorteXβ^1Xonortey
r=syosolnorte(β^1Xonortey)β^1yonorteXβ^1Xonortey

r

El |12(β^1yonorteX+β^1Xonortey)El |β^1yonorteXβ^1Xonortey=El |rEl |


1

 Haciendo regresión de y dado X

minsimi(Y-siX)2

haciendo regresión de X dado y

minsimi(X-siY)2

minsi1si2mi(Y-siX)2

También es importante tener en cuenta que dos problemas de aspecto diferente pueden tener la misma solución.


1
Aunque esto es correcto, y gracias por estas observaciones, deja a sus lectores pendientes: ¿podría explicar por qué las soluciones a estos dos problemas de aspecto diferentes son necesariamente diferentes?
whuber

1
Mira

¿Cómo es la última línea equivalente a la línea media? Si multiplica 1 / b ^ 2 obtendrá E (X - Y / b) ^ 2 no E (X - Yb) ^ 2
Austin Shin

sisi: =1/ /si

+1: ¡claramente has hecho tu punto ahora!
Whuber

0

Bueno, es cierto que para una regresión bivariada simple, el coeficiente de correlación lineal y el cuadrado R serán los mismos para ambas ecuaciones. Pero las pendientes serán r Sy / Sx o r Sx / Sy, que no son recíprocas entre sí, a menos que r = 1.


1
-1r2=1

-7

La idea básica de regresión puede ser la 'causa y efecto' o 'independiente y dependiente'. La práctica normal de colocar una variable independiente en el eje X y una variable dependiente en el eje Y, está representada por Y = mX + c. Si la pendiente se llamará como m (X en Y) o (Y en X) y la regresión como: (X en Y) o (Y en X). Se maneja en ambos sentidos, lo que no es bueno y debe aclararse. Los modeladores usan con frecuencia Gráficos de dispersión para juzgar si la Serie simulada coincide con la Serie observada; y el uso de la línea de regresión es inevitable. Aquí no hay una cláusula causal. Siguiendo esta necesidad, la pregunta muda planteada por el hilo se mantiene. O simplemente, aclare cómo llamar al análisis de regresión normal: X en Y; o Y en X ?, yendo más allá de la respuesta causal. No es una respuesta al hilo principal; pero una pregunta paralela


66
-1 Además de ser incoherente, esta respuesta omite la idea clave tan hábilmente explicada en la mejor respuesta: el modelo de probabilidad de variación en los datos dicta si la regresión es significativa y determina qué variable puede considerarse la variable dependiente.
whuber

Este encuestado puede estar reiterando una interpretación de la pregunta del título, algo confusa, en términos de etiquetado habitual. Para un problema de la forma y = mx + b, ¿se describe típicamente la relación como "y se regresa en x" (sí) o como "x se regresa en y" (no)? La pregunta de terminología se responde en stats.stackexchange.com/questions/207425/… .
InColorado
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.