¿La correlación o el coeficiente de determinación se relacionan con el porcentaje de valores que se encuentran en una línea de regresión?

12

La correlación, , es una medida de asociación lineal entre dos variables. El coeficiente de determinación, , es una medida de cuánto de la variabilidad en una variable puede "explicarse por" la variación en la otra. $r$ $r^2$

Por ejemplo, si es la correlación entre dos variables, entonces . Por lo tanto, el 64% de la variabilidad en uno puede explicarse por diferencias en el otro. ¿Derecho? $r = 0.8$ $r^2 = 0.64$

Mi pregunta es, por ejemplo, ¿alguna de las siguientes afirmaciones es correcta?

64% de los valores caen a lo largo de la línea de regresión
80% de los valores caen a lo largo de la línea de regresión

regression correlation r-squared

— Bradex
fuente

El término "caer" es impreciso. Parece que al menos algunas respuestas lo interpretan como "puesto exactamente", y allí la respuesta es claramente no (aunque esa idea podría conducir a una medida interesante de asociación lineal que podría ser adecuada en algunas situaciones particulares, por ejemplo, donde hay fue una mezcla de no ruido / error la mayor parte del tiempo, y algún error ocasionalmente, como con algún proceso contaminante, y luego estaría estimando la proporción de datos que no están contaminados). Si quisieras decir algo diferente a "acostarse exactamente", deberías especificar cuál era ese significado.

— Glen_b -Reinstate Monica

8

La primera parte de esto es básicamente correcta, pero el modelo explica el 64% de la variación. En una regresión lineal simple: Y ~ X, si es 0,64, significa que el 64% de la variación en Y está determinada por la relación lineal entre Y y X. Es posible tener una relación fuerte con muy bajo , si la relación es fuertemente no lineal. $R^2$ $R^2$

En cuanto a sus dos preguntas numeradas, ninguna es correcta. De hecho, es posible que ninguno de los puntos se encuentre exactamente en la línea de regresión. Eso no es lo que se mide. Más bien, se trata de cuán cerca está el punto promedio de la línea. Si todos o casi todos los puntos están cerca (aunque ninguno es exactamente sobre la línea), entonces será alto. Si la mayoría de los puntos están lejos de la línea, será bajo. Si la mayoría de los puntos están cerca pero algunos están lejos, la regresión es incorrecta (problema de valores atípicos). Otras cosas también pueden salir mal. $R^2$ $R^2$

Además, he dejado la noción de "lejos" bastante vaga. Esto dependerá de cuán extendidas estén las X. Hacer precisas estas nociones es parte de lo que aprende en un curso sobre regresión; No voy a entrar aquí.

— Peter Flom - Restablece a Monica
fuente

Bueno, eso me aclaró mucho! ¡Gracias Mimshot y Peter Flom! ¡Muchas gracias a los dos! :)

— Bradex

1

+1, buena respuesta, ¿le importaría agregar algo como "De hecho, [es posible que] ninguno de los puntos pueda mentir ...". Además, podría valer la pena discutir que la noción de cuán lejos están los puntos de la línea también es relativa a qué tan extendidas están las X.

— gung - Restablece a Monica

15

$R^{2}$ $y$ $Var(y)$ $R^{2}$

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

$R^{2}$ $y_{i}$ $\hat{y}_{i}$ $y_{i}$ $\hat{y}_{i}$

http://economictheoryblog.com/2014/11/05/proof/

$R^{2}$ $R^{2}$

— Miguel
fuente

2

R^{2}

$R^2$

r

$r$

R^{2}

$R^2$

2

Corr (y, \hat{y})

$\operatorname{Corr}(y, \hat y)$

R^{2}

$R^2$

2

Niether 1 ni 2 es correcto.

$\pmb{y}$ $\pmb{x}$

y_{i} = b + m x_{i} + ϵ_{i}

$y_i = b + mx_i + \epsilon_i$

$\epsilon_i \sim \mathcal{N(0,\sigma^2)}$ $R^2=.64$ $y$ $x$

{\hat{y}}_{i} = b + m x_{i}

$\hat{y}_i = b + mx_i$

Luego

1 - 0.64 = 0.36 = \frac{v a r (y y - \hat{y} \hat{y})}{v a r (y y)}

$1-0.64 = 0.36 = \frac{\mathrm{var}(\pmb{y}-\pmb{\hat{y}})}{\mathrm{var}(\pmb{y})}$

— Mimshot
fuente