Residuos estudiados v / s residuales estandarizados en el modelo lm

¿Son "residuales studentizados" y "residuales estandarizados" iguales en los modelos de regresión? Construí un modelo de regresión lineal en R y quería trazar la gráfica de los valores ajustados de los residuos Studentizados v / s, pero no encontré una forma automatizada de hacerlo en R.

Supongamos que tengo un modelo

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

luego, el uso plot(lm.fit)no proporciona ningún gráfico de residuos Studentizados versus valores ajustados, pero proporciona gráficos de residuos estandarizados vs. valores ajustados.

Utilicé plot(lm.fit$fitted.values,studres(lm.fit)y trazará el gráfico deseado, así que solo quiero confirmar que estoy yendo por el camino correcto y que los residuos Studentizados y Estandarizados no son lo mismo. Si son diferentes, proporcione alguna guía para calcularlos y sus definiciones. Busqué en la red y lo encontré un poco confuso.

r regression residuals terminology

— aprendiz
fuente

1 Se está confundiendo porque (a) de hecho estos tipos de residuos diferentes, pero (b) diferentes autoridades no están de acuerdo sobre lo que debe llamar a ellos! Por ejemplo, la Rterminología es lo contrario de Montgomery, Peck y Vining (un libro de texto de regresión popular que ha existido durante 35 años). Así que tenga cuidado y asegúrese de estudiar la Rdocumentación y, si es necesario, su código fuente, en lugar de confiar en lo que cree que significa la terminología.

— whuber

No, los residuos estudiados y los residuos estandarizados son conceptos diferentes (pero relacionados).

De hecho, R proporciona funciones integradas rstandard()y rstudent()como parte de las medidas de influencia . El mismo paquete incorporado proporciona muchas funciones similares para el apalancamiento, la distancia de Cook, etc., rstudent()es esencialmente la misma MASS::studres()que puede verificar por usted mismo de la siguiente manera:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Los residuos estandarizados son una forma de estimar el error para un punto de datos particular que tiene en cuenta el apalancamiento / influencia del punto. A veces se denominan "residuos internamente estudiados".

r_{i} = \frac{e_{i}}{s (e_{i})} = \frac{e_{i}}{\sqrt{M S E (1 - h_{i i})}}

$r_{i}=\frac{e_{i}}{s(e_{i})}=\frac{e_{i}}{\sqrt{MSE(1-h_{ii})}}$

La motivación detrás de los residuos estandarizados es que, aunque nuestro modelo asumió la homocedasticidad con un término de error iid con varianza fija , la distribución, los residuos no pueden ser iid porque La suma de los residuos es siempre exactamente cero. $\epsilon_i \sim \mathbb{N}(0, \sigma^2)$ $e_i$

Los residuos estudiados para cualquier punto de datos se calculan a partir de un modelo ajustado a cualquier otro punto de datos, excepto el en cuestión. Estos se denominan "residuos residuales estudiados externamente", "residuos eliminados" o "residuos con efecto jackknifed".

Esto suena computacionalmente difícil ( parece que tendríamos que ajustar un nuevo modelo para cada punto) pero, de hecho, hay una manera de calcularlo desde el modelo original sin volver a ajustarlo. Si el residuo estandarizado es , entonces el residuo es: $r_i$ $t_i$

t_{i} = r_{i} {(\frac{n - k - 2}{n - k - 1 - r_{i}^{2}})}^{1 / 2},

$t_i=r_i \left( \frac{n-k-2}{n-k-1-r_{i}^{2}}\right) ^{1/2},$

La motivación detrás de los residuos studentizados proviene de su uso en pruebas atípicas. Si sospechamos que un punto es un valor atípico, entonces no se generó a partir del modelo asumido, por definición. Por lo tanto, sería un error, una violación de los supuestos, incluir ese valor atípico en la adaptación del modelo. Los residuos studentizados son ampliamente utilizados en la detección práctica de valores atípicos.

Los residuos studentizados también tienen la propiedad deseable de que para cada punto de datos, la distribución del residual será la distribución t de Student, suponiendo que se cumplieron los supuestos de normalidad del modelo de regresión original. (Los residuos estandarizados no tienen una distribución tan agradable).

Por último, para abordar cualquier inquietud de que la biblioteca R pueda estar siguiendo una nomenclatura diferente a la anterior, la documentación de R establece explícitamente que usan "estandarizado" y "estudiantilizado" en el mismo sentido descrito anteriormente.

Funciones rstandardy rstudentdar los residuos estandarizados y Studentizados respectivamente. (Estas re-normalizar los residuos para enviar la unidad varianza, utilizando un conjunto y dejar uno fuera medida de la varianza del error, respectivamente).

— olooney
fuente