La mejor manera de entender estos términos es hacer un cálculo de regresión a mano. Escribí dos respuestas estrechamente relacionadas ( aquí y aquí ), sin embargo, puede que no lo ayuden completamente a comprender su caso particular. Pero sigue leyendo a pesar de todo. Quizás también te ayuden a conceptualizar mejor estos términos.
En una regresión (o ANOVA), creamos un modelo basado en un conjunto de datos de muestra que nos permite predecir los resultados de una población de interés. Para ello, los siguientes tres componentes se calculan en un simple regresión lineal a partir del cual se pueden calcular los otros componentes, por ejemplo, los cuadrados medios, el valor F, el R2 (también el ajustado R2 ), y el error estándar residual ( R Smi ):
- sumas totales de cuadrados ( SSt o t al )
- sumas residuales de cuadrados ( SSr e si dtu a l )
- sumas modelo de cuadrados ( SSm o de l )
Cada uno de ellos está evaluando qué tan bien el modelo describe los datos y son la suma de las distancias al cuadrado desde los puntos de datos hasta el modelo ajustado (ilustrado como líneas rojas en la gráfica a continuación).
El SSt o t a l evalúa qué tan bien se ajusta la media a los datos. ¿Por qué la media? Debido a que la media es el modelo más simple que podemos ajustar y, por lo tanto, sirve como el modelo con el que se compara la línea de regresión de mínimos cuadrados. Este gráfico que usa el cars
conjunto de datos ilustra que:
SSresidual
SSmodelSStotalSSresidual
Para responder a sus preguntas, primero calculemos los términos que desea comprender comenzando con el modelo y la salida como referencia:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Las sumas de cuadrados son las distancias al cuadrado de los puntos de datos individuales al modelo:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Los cuadrados medios son las sumas de cuadrados promediados por los grados de libertad:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Mis respuestas a tus preguntas:
Q1:
- ¿Esta es realmente la distancia promedio de los valores observados desde la línea lm?
RSEMSresidual
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSresidualMSresidual SSresidtualR Smirepresenta la distancia promedio de los datos observados desde el modelo. Intuitivamente, esto también tiene mucho sentido porque si la distancia es menor, el ajuste de su modelo también es mejor.
Q2:
- Ahora me estoy confundiendo porque si RSE nos dice qué tan lejos se desvían nuestros puntos observados de la línea de regresión, un RSE bajo en realidad nos dice "su modelo se ajusta bien en función de los puntos de datos observados" -> por lo tanto, qué tan bien se ajustan nuestros modelos Entonces, ¿cuál es la diferencia entre R cuadrado y RSE?
R2SSm o de lSSt o t a l
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SSt o t a lSSm ode l
R SmiR2R Smi
R2
Q3:
- ¿Es cierto que podemos tener un valor F que indica una relación fuerte que NO ES LINEAL para que nuestro RSE sea alto y nuestra R al cuadrado sea baja
FMETROSm o dmilMETROSr e s i dtu a l
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
Su tercera pregunta es un poco difícil de entender, pero estoy de acuerdo con la cita que me proporcionó.