Entiendo que significa que el modelo es malo para predecir puntos de datos individuales, pero ha establecido una tendencia firme (por ejemplo, y sube cuando x sube).
Entiendo que significa que el modelo es malo para predecir puntos de datos individuales, pero ha establecido una tendencia firme (por ejemplo, y sube cuando x sube).
Respuestas:
Significa que puede explicar una pequeña porción de la varianza en los datos. Por ejemplo, puede establecer que un título universitario afecta los salarios, pero al mismo tiempo es solo un factor pequeño. Hay muchos otros factores que afectan su salario, y la contribución del título universitario es muy pequeña, pero detectable.
En términos prácticos, podría significar que, en promedio, el título universitario aumenta el salario en $ 500 por año, mientras que la desviación estándar de los salarios de las personas es de $ 10K. Por lo tanto, muchas personas con educación universitaria tienen salarios más bajos que los que no tienen educación, y el valor de su modelo de predicción es bajo.
Significa que "el error irreducible es alto", es decir, lo mejor que podemos hacer (con el modelo lineal) es limitado. Por ejemplo, el siguiente conjunto de datos:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Tenga en cuenta que el truco en este conjunto de datos es que, dado un valor , hay demasiados valores y diferentes , por lo que no podemos hacer una buena predicción para satisfacerlos a todos. Al mismo tiempo, hay correlaciones lineales "fuertes" entre x e y . Si ajustamos un modelo lineal, obtendremos coeficientes significativos, pero R al cuadrado bajo.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
¿Qué significa que una regresión lineal sea estadísticamente significativa pero que tenga un r cuadrado muy bajo?
Significa que existe una relación lineal entre la variable independiente y la dependiente, pero que no vale la pena hablar de esta relación.
El significado de la relación, sin embargo, depende mucho de lo que está examinando, pero en general, puede tomarse como que la significación estadística no debe confundirse con la relevancia.
Con un tamaño de muestra lo suficientemente grande, incluso las relaciones más triviales pueden ser estadísticamente significativas.
Otra forma de redactar esto es que significa que puede predecir con confianza un cambio a nivel de población pero no a nivel individual. es decir, existe una gran variación en los datos individuales, pero cuando se usa una muestra lo suficientemente grande, se puede ver un efecto subyacente en general. Es una de las razones por las cuales algunos consejos de salud del Gobierno no son útiles para el individuo. En algún momento, los gobiernos sienten la necesidad de actuar porque pueden ver que más de alguna actividad conduce a más muertes en general en la población. Producen consejos o una política que 'salva' estas vidas. Sin embargo, debido a la alta variación en las respuestas individuales, es poco probable que un individuo vea personalmente algún beneficio (o, lo que es peor, debido a condiciones genéticas específicas, su propia salud habría mejorado al obedecer el consejo opuesto, pero esto está oculto en la agregación de la población). Si el individuo obtiene beneficios (por ejemplo, placer) de la actividad 'poco saludable', seguir el consejo puede significar que renuncie a este placer definitivo durante toda su vida, pero en realidad no cambia personalmente si hubieran sufrido o no la enfermedad.