Hubiera esperado que el coeficiente de correlación fuera el mismo que una pendiente de regresión (beta), sin embargo, al comparar los dos, son diferentes. ¿Cómo difieren? ¿Qué información diferente dan?
Hubiera esperado que el coeficiente de correlación fuera el mismo que una pendiente de regresión (beta), sin embargo, al comparar los dos, son diferentes. ¿Cómo difieren? ¿Qué información diferente dan?
Respuestas:
Suponiendo que está hablando de un modelo de regresión simple estimado por mínimos cuadrados, sabemos por wikipedia que Por lo tanto, los dos solo coinciden cuando . Es decir, solo coinciden cuando las dos variables están en la misma escala, en algún sentido. La forma más común de lograr esto es a través de la estandarización, como lo indica @gung.
Los dos, en cierto sentido, le dan la misma información: cada uno le dice la fuerza de la relación lineal entre e . Pero, cada uno le brinda información distinta (excepto, por supuesto, cuando son exactamente iguales):
La correlación le brinda una medición acotada que puede interpretarse independientemente de la escala de las dos variables. Cuanto más cerca esté la correlación estimada de , más cerca están los dos de una relación lineal perfecta . La pendiente de regresión, aisladamente, no le dice esa información.
La pendiente de regresión da una cantidad útil interpretada como el cambio estimado en el valor esperado de para un valor dado de . Específicamente, le dice el cambio en el valor esperado de correspondiente a un aumento de 1 unidad en . Esta información no puede deducirse solo del coeficiente de correlación.
Con una regresión lineal simple (es decir, solo 1 covariable), la pendiente es la misma que la de Pearson si ambas variables se estandarizaron primero. (Para obtener más información, puede encontrar útil mi respuesta aquí .) Cuando realiza una regresión múltiple, esto puede ser más complicado debido a la multicolinealidad , etc. r
El coeficiente de correlación mide la "tensión" de la relación lineal entre dos variables y está limitado entre -1 y 1, inclusive. Las correlaciones cercanas a cero no representan una asociación lineal entre las variables, mientras que las correlaciones cercanas a -1 o +1 indican una fuerte relación lineal. Intuitivamente, cuanto más fácil sea para usted dibujar una línea de mejor ajuste a través de un diagrama de dispersión, más correlacionados estarán.
La pendiente de regresión mide la "inclinación" de la relación lineal entre dos variables y puede tomar cualquier valor de a . Las pendientes cercanas a cero significan que la variable de respuesta (Y) cambia lentamente a medida que cambia la variable predictora (X). Las pendientes que están más lejos de cero (ya sea en dirección negativa o positiva) significan que la respuesta cambia más rápidamente a medida que cambia el predictor. Intuitivamente, si dibujara una línea de mejor ajuste a través de un diagrama de dispersión, cuanto más empinada sea, más se alejará su pendiente de cero.+ ∞
Por lo tanto, el coeficiente de correlación y la pendiente de regresión DEBEN tener el mismo signo (+ o -), pero casi nunca tendrán el mismo valor.
Para simplificar, esta respuesta supone una regresión lineal simple.
El coeficiente de correlación de Pearson no tiene dimensiones y se escala entre -1 y 1, independientemente de la dimensión y la escala de las variables de entrada.
Si (por ejemplo) ingresa una masa en gramos o kilogramos, no hay diferencia en el valor de , mientras que esto hará una gran diferencia en el gradiente / pendiente (que tiene dimensión y se escala en consecuencia ... del mismo modo, no habría diferencia para si la escala se ajusta de alguna manera, incluido el uso de libras o toneladas en su lugar).
Una demostración simple (¡disculpas por usar Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
muestra que a pesar de que la pendiente se ha incrementado en un factor de 10.
Debo confesar que es un buen truco que se escala entre -1 y 1 (uno de esos casos en los que el numerador nunca puede tener un valor absoluto mayor que el denominador).
Como @Macro ha detallado anteriormente, la pendiente , por lo que tiene razón al intuir que la de Pearson está relacionada con la pendiente, pero solo cuando se ajusta de acuerdo con a las desviaciones estándar (que efectivamente restaura las dimensiones y escalas!).
Al principio, pensé que era extraño que la fórmula pareciera sugerir que una línea ajustada ( baja ) da como resultado un gradiente más bajo; luego tracé un ejemplo y me di cuenta de que dado un gradiente, al variar la "flojedad", disminuye, pero esto se compensa con un aumento proporcional en .
En el cuadro a continuación, se trazan cuatro conjuntos de datos :
Se puede ver que la varianza afecta a sin necesariamente afectar a , y las unidades de medida pueden afectar a la escala y, por lo tanto, sin afectar a