No, los residuos estudiados y los residuos estandarizados son conceptos diferentes (pero relacionados).
De hecho, R proporciona funciones integradas rstandard()
y rstudent()
como parte de las medidas de influencia . El mismo paquete incorporado proporciona muchas funciones similares para el apalancamiento, la distancia de Cook, etc., rstudent()
es esencialmente la misma MASS::studres()
que puede verificar por usted mismo de la siguiente manera:
> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE
Los residuos estandarizados son una forma de estimar el error para un punto de datos particular que tiene en cuenta el apalancamiento / influencia del punto. A veces se denominan "residuos internamente estudiados".
ri=eis(ei)=eiMSE(1−hii)−−−−−−−−−−−√
La motivación detrás de los residuos estandarizados es que, aunque nuestro modelo asumió la homocedasticidad con un término de error iid con varianza fija , la distribución, los residuos no pueden ser iid porque La suma de los residuos es siempre exactamente cero.ϵi∼N(0,σ2)ei
Los residuos estudiados para cualquier punto de datos se calculan a partir de un modelo ajustado a cualquier otro punto de datos, excepto el en cuestión. Estos se denominan "residuos residuales estudiados externamente", "residuos eliminados" o "residuos con efecto jackknifed".
Esto suena computacionalmente difícil ( parece que tendríamos que ajustar un nuevo modelo para cada punto) pero, de hecho, hay una manera de calcularlo desde el modelo original sin volver a ajustarlo. Si el residuo estandarizado es , entonces el residuo es:riti
ti=ri(n−k−2n−k−1−r2i)1/2,
La motivación detrás de los residuos studentizados proviene de su uso en pruebas atípicas. Si sospechamos que un punto es un valor atípico, entonces no se generó a partir del modelo asumido, por definición. Por lo tanto, sería un error, una violación de los supuestos, incluir ese valor atípico en la adaptación del modelo. Los residuos studentizados son ampliamente utilizados en la detección práctica de valores atípicos.
Los residuos studentizados también tienen la propiedad deseable de que para cada punto de datos, la distribución del residual será la distribución t de Student, suponiendo que se cumplieron los supuestos de normalidad del modelo de regresión original. (Los residuos estandarizados no tienen una distribución tan agradable).
Por último, para abordar cualquier inquietud de que la biblioteca R pueda estar siguiendo una nomenclatura diferente a la anterior, la documentación de R establece explícitamente que usan "estandarizado" y "estudiantilizado" en el mismo sentido descrito anteriormente.
Funciones rstandard
y rstudent
dar los residuos estandarizados y Studentizados respectivamente. (Estas re-normalizar los residuos para enviar la unidad varianza, utilizando un conjunto y dejar uno fuera medida de la varianza del error, respectivamente).
R
terminología es lo contrario de Montgomery, Peck y Vining (un libro de texto de regresión popular que ha existido durante 35 años). Así que tenga cuidado y asegúrese de estudiar laR
documentación y, si es necesario, su código fuente, en lugar de confiar en lo que cree que significa la terminología.