Poco fondo
Estoy trabajando en la interpretación del análisis de regresión, pero estoy realmente confundido sobre el significado de r, r cuadrado y desviación estándar residual. Sé las definiciones:
Caracterizaciones
r mide la fuerza y la dirección de una relación lineal entre dos variables en un diagrama de dispersión
R-cuadrado es una medida estadística de qué tan cerca están los datos de la línea de regresión ajustada.
La desviación estándar residual es un término estadístico utilizado para describir la desviación estándar de los puntos formados alrededor de una función lineal, y es una estimación de la precisión de la variable dependiente que se mide. ( No sé cuáles son las unidades, cualquier información sobre las unidades aquí sería útil )
(fuentes: aquí )
Pregunta
Aunque "entiendo" las caracterizaciones, sí entiendo cómo estos términos pueden llegar a una conclusión sobre el conjunto de datos. Insertaré un pequeño ejemplo aquí, tal vez esto pueda servir como guía para responder mi pregunta (¡ siéntase libre de usar un ejemplo propio!)
Ejemplo
Esta no es una pregunta práctica, sin embargo busqué en mi libro para obtener un ejemplo simple (el conjunto de datos actual que estoy analizando es demasiado complejo y grande para mostrar aquí)
Veinte parcelas, cada una de 10 x 4 metros, fueron elegidas al azar en un gran campo de maíz. Para cada parcela, se observó la densidad de plantas (número de plantas en la parcela) y el peso medio de la mazorca (gm de grano por mazorca). Los resultados se dan en la siguiente tabla:
(fuente: Estadísticas de ciencias de la vida )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Primero haré un diagrama de dispersión para visualizar los datos:
para poder calcular r, R 2 y la desviación estándar residual.
primero la prueba de correlación:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
y en segundo lugar un resumen de la línea de regresión:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Entonces, según esta prueba: r = -0.9417954
, R cuadrado: 0.887
y error estándar residual: 8.619
¿Qué nos dicen estos valores sobre el conjunto de datos? (ver pregunta )