La equivalencia de la correlación muestral y el estadístico R para la regresión lineal simple

10

A menudo se afirma que el cuadrado de la correlación de la muestra es equivalente al coeficiente de determinación para la regresión lineal simple. No he podido demostrarlo yo mismo y agradecería una prueba completa de este hecho. $r^2$ $R^2$

regression correlation

— edwardsm88
fuente

1

Si se trata de una pregunta de autoestudio, agregue la etiqueta correspondiente.

— Andy

Esta pregunta también pregunta por qué .

R^{2} = r^{2}

$R^2=r^2$

— Silverfish

8

Parece haber alguna variación en la notación: en una regresión lineal simple, generalmente he visto la frase "coeficiente de correlación de muestra" con el símbolo como referencia a la correlación entre los valores observados e . Esta es la notación que he adoptado para esta respuesta. También he visto la misma frase y símbolo utilizados para referirnos a la correlación entre observado ajustado ; en mi respuesta me he referido a esto como el "coeficiente de correlación múltiple" y se utiliza el símbolo . Esta respuesta aborda por qué el coeficiente de determinación es tanto el cuadrado de como también el cuadrado de $r$ $x$ $y$ $y$ $\hat y$ $R$ $r$ $R$ , por lo que no debería importar qué uso se pretendía.

El resultado de sigue en una línea de álgebra una vez que se establecen algunos hechos directos sobre la correlación y el significado de , por lo que puede preferir saltar a la ecuación encuadrada. Supongo que no tenemos que demostrar las propiedades básicas de covarianza y varianza, en particular: $r^2$ $R$

Cov (una X + si, Y) = una Cov (X, Y)

$\text{Cov}(aX+b, Y) = a\text{Cov}(X,Y)$

Var (una X + si) = {una}^{2} Var (X)

$\text{Var}(aX+b) = a^2\text{Var}(X)$

Tenga en cuenta que este último puede derivarse del primero, una vez que sepamos que la covarianza es simétrica y que . De aquí derivamos otro hecho básico, sobre la correlación. Para , y siempre que e tengan variaciones distintas de cero, $\text{Var}(X)= \text{Cov}(X,X)$ $a \neq 0$ $X$ $Y$

\begin{aligned} Cor (una X + si, Y) & = \frac{Cov (una X + si, Y)}{\sqrt{Var (una X + si) Var (Y)}} \\ = \frac{una}{\sqrt{{una}^{2}}} \times \frac{Cov (X, Y)}{\sqrt{Var (X) Var (Y)}} \\ Cor (una X + si, Y) & = sgn (una) Cor (X, Y) \end{aligned}

$\begin{align} \text{Cor}(aX+b, Y) &= \frac{\text{Cov}(aX+b, Y)}{\sqrt{\text{Var}(aX+b) \text{Var} (Y)}} \\ &= \frac{a}{\sqrt{a^2}} \times \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var} (Y)}} \\ \text{Cor}(aX+b, Y) &= \text{sgn}(a) \, \text{Cor}(X,Y) \end{align}$

Aquí es la función signum o sign : su valor es si y si . También es cierto que si , pero ese caso no nos concierne: sería una constante, entonces en el denominador y no podemos calcular la correlación. Los argumentos de simetría nos permiten generalizar este resultado, para : $\text{sgn}(a)$ $\text{sgn}(a) = +1$ $a>0$ $\text{sgn}(a) = -1$ $a<0$ $\text{sgn}(a) = 0$ $a=0$ $aX+b$ $\text{Var}(aX+b) = 0$ $a, \, c \neq 0$

Cor (una X + si, C Y + re) = sgn (una) sgn (C) Cor (X, Y)

$\text{Cor}(aX+b, \, cY+d) = \text{sgn}(a) \, \text{sgn}(c) \, \text{Cor}(X,Y)$

No necesitaremos esta fórmula más general para responder la pregunta actual, pero la incluyo para enfatizar la geometría de la situación: simplemente establece que la correlación no cambia cuando una variable se escala o se traduce, pero se invierte en signo cuando una variable es reflejado

Necesitamos un hecho más: para un modelo lineal que incluye un término constante, el coeficiente de determinación es el cuadrado del coeficiente de correlación múltiple , que es la correlación entre las respuestas observadas y los valores equipada del modelo . Esto se aplica tanto para múltiples y regresiones simples, pero vamos a restringir nuestra atención a la simple modelo lineal . El resultado se deduce de la observación de que es una versión escalada, posiblemente reflejada y traducida de : $R^2$ $R$ $Y$ $\hat Y$ $\hat Y = \hat \beta_0 + \hat \beta_1 X$ $\hat Y$ $X$

R = Cor (\hat{Y}, Y) = Cor ({\hat{β}}_{0} + {\hat{β}}_{1} X, Y) = sgn ({\hat{β}}_{1}) Cor (X, Y) = sgn ({\hat{β}}_{1}) r

$\boxed{R = \text{Cor}(\hat Y, Y) = \text{Cor}(\hat \beta_0 + \hat \beta_1 X, \, Y) = \text{sgn}(\hat \beta_1) \, \text{Cor}(X, Y) = \text{sgn}(\hat \beta_1) \, r}$

Entonces donde el signo coincide con el signo de la pendiente estimada, lo que garantiza que no sea negativo. Claramente . $R = \pm r$ $R$ $R^2 = r^2$

El argumento anterior se simplificó al no tener que considerar sumas de cuadrados. Para lograr esto, salté los detalles de la relación entre , que normalmente pensamos en términos de sumas de cuadrados, y , para lo cual pensamos en correlaciones de respuestas ajustadas y observadas. Los símbolos hacen que la relación parezca tautológica, pero este no es el caso, ¡y la relación se rompe si no hay un término de intercepción en el modelo! Daré un breve bosquejo de un argumento geométrico sobre la relación entre y tomado de una pregunta diferente : el diagrama se dibuja en un espacio sujeto - dimensional $R^2$ $R$ $R^2 = (R)^2$ $R$ $R^2$ $n$ , por lo que cada eje (no mostrado) representa una sola unidad de observación, y las variables se muestran como vectores. Las columnas de la matriz de diseño son el vector (para el término constante) y el vector de observaciones de la variable explicativa, por lo que el espacio de la columna es un plano bidimensional. $\mathbf{X}$ $\mathbf{1_n}$

Vectores en el espacio temático de regresión múltiple

La ajustada es la proyección ortogonal de la observada en el espacio de la columna de . Esto significa que el vector de residuos es perpendicular al plano, y por lo tanto a . El producto punto es . Como los residuales suman cero e , entonces para que ambas se y observen las respuestas tener media . Las líneas discontinuas en el diagrama, y $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{X}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $0 = \mathbf{1_n} \cdot \mathbf{e} = \sum_{i=1}^n e_i$ $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ $\bar{Y}$ $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ , son por lo tanto los centrados vectores para las respuestas observadas y empotrados, y el coseno del ángulo entre ellos es su correlación . $\theta$ $R$

El triángulo que forman estos vectores con el vector de residuos está en ángulo recto ya que encuentra en el plano, pero es ortogonal a él. Aplicando Pitágoras: $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$

‖ Y - \bar{Y} 1_{norte} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{norte} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Esto es solo la descomposición de las sumas de cuadrados, . La fórmula convencional para el coeficiente de determinación es que en este triángulo es así que es de hecho el cuadrado de . Es posible que esté más familiarizado con la fórmula , que da inmediatamente , pero tenga en cuenta que es más general y (como acabamos de ver) se reducirá a $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $1 - \sin^2 \theta = \cos^2 \theta$ $R$ $R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}}$ $\cos^2 \theta$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $\frac{SS_{\text{regression}}}{SS_{\text{total}}}$ si se incluye un término constante en el modelo .

— Lepisma
fuente

¡¡+1 gracias por los esfuerzos de hacer buenas matemáticas y gráficos !!

— Haitao Du

4

El se define como El coeficiente de correlación de la muestra al cuadrado: es equivalente, ya que se verifica fácilmente usando: (ver Verbeek , §2.4) $R^2$

R^{2} = \frac{\hat{V} ({\hat{y}}_{yo})}{\hat{V} (y_{yo})} = \frac{1 / / (norte - 1) \sum_{yo = 1}^{norte} ({\hat{y}}_{yo} - \bar{y})^{2}}{1 / / (norte - 1) \sum_{yo = 1}^{norte} (y_{yo} - \bar{y})^{2}} = \frac{mi S S}{T S S}

$R^2=\frac{\hat{V}(\hat{y}_i)}{\hat{V}(y_i)} =\frac{1/(N-1)\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{1/(N-1)\sum_{i=1}^N(y_i-\bar{y})^2}=\frac{ESS}{TSS}$

r^{2} (y_{yo}, {\hat{y}}_{yo}) = \frac{{(\sum_{yo = 1}^{norte} (y_{yo} - \bar{y}) ({\hat{y}}_{yo} - \bar{y}))}^{2}}{(\sum_{yo = 1}^{norte} (y_{yo} - \bar{y})^{2}) (\sum_{yo = 1}^{norte} ({\hat{y}}_{yo} - \bar{y})^{2})}

$r^2(y_i,\hat{y}_i)=\frac{\left(\sum_{i=1}^N(y_i-\bar{y})(\hat{y}_i-\bar{y})\right)^2}{\left(\sum_{i=1}^N(y_i-\bar{y})^2\right)\left(\sum_{i=1}^N(\hat y_i-\bar{y})^2\right)}$

\hat{V} (y_{yo}) = \hat{V} ({\hat{y}}_{yo}) + \hat{V} ({mi}_{yo})

$\hat V(y_i)=\hat V(\hat y_i)+\hat V(e_i)$

— Sergio
fuente

¿Podría agregar algunos detalles más? He intentado probar esto, pero sin éxito ...

— Un viejo en el mar.