¿Qué ventajas ofrecen los "residuos internamente estudiados" sobre los residuos brutos estimados en términos de diagnóstico de puntos de datos influyentes potenciales?

10

La razón por la que pregunto esto es porque parece que los residuos internamente estudiados parecen tener el mismo patrón que los residuos brutos estimados. Sería genial si alguien pudiera ofrecer una explicación.

residuals

— Scortchi - Restablece a Monica
fuente

13

Suponga un modelo de regresión con matriz de diseño (una columna seguida de sus predictores), predicciones (donde es la "matriz de sombreros") y los residuos . El modelo de regresión supone que los errores verdaderos tienen la misma varianza (homoscedasticidad): $\bf{y} = \bf{X} \bf{\beta} + \bf{\epsilon}$ $\bf{X}$ $\bf{1}$ $\hat{\bf{y}} = \bf{X} (\bf{X}' \bf{X})^{-1} \bf{X}' \bf{y} = \bf{H} \bf{y}$ $\bf{H}$ $\bf{e} = \bf{y} - \hat{\bf{y}}$ $\bf{\epsilon}$

homoscedasticidad

La matriz de covarianza de los residuos es . Esto significa que los residuos brutos tienen diferentes variaciones - la diagonal de la matriz . Los elementos diagonales de son los valores de sombrero . $V(\bf{e}) = \sigma^{2} (\bf{I} - \bf{H})$ $e_{i}$ $\sigma^{2} (1-h_{ii})$ $\sigma^{2} (\bf{I} - \bf{H})$ $\bf{H}$ $h_{ii}$

Los residuos verdaderamente estandarizados con varianza 1 en todo momento son, por lo tanto, . El problema es que la varianza de error es desconocida, y los residuos estudiados interna / externamente resultan de elecciones particulares para una estimación . $\bf{e} / (\sigma \sqrt{1 - h_{ii}})$ $\sigma$ $\bf{e} / (\hat{\sigma} \sqrt{1 - h_{ii}})$ $\hat{\sigma}$

Dado que se espera que los residuos en bruto sean heteroscedasticos incluso si el es homoscedastico, los residuos en bruto son teoricamente menos adecuados para diagnosticar problemas con el supuesto de homocedasticidad que los residuos estandarizados o estudiados. $\epsilon$

— lince
fuente

Las diferencias de definición entre los dos tipos diferentes de residuos (así como los residuos estudiados externamente) son claras para mí. En la práctica, sin embargo, no creo haber encontrado casos (al menos con mis propios datos) en los que los residuos internamente estudiados tengan un patrón distinto en comparación con los residuos estimados. Por otro lado, los residuos estudiados externamente pueden exhibir un patrón distinto al de los residuos estimados. * No digo que los dos tipos de residuos sean iguales. Me refiero a sus patrones generales.

@AlexH. Estoy de acuerdo en que la ventaja declarada que añadí es teórica . Construir una situación empírica simulada en la que los residuos brutos sean engañosos y los residuos estudiados proporcionen una imagen más precisa de las distribuciones condicionales sería una buena adición.

— caracal

12

¿En qué tipos de datos realizó sus parcelas de prueba? Cuando todos los supuestos se mantienen (o se acercan), entonces no esperaría mucha diferencia entre los residuos sin procesar y los residuales estudiantiles, la principal ventaja es cuando hay puntos muy influyentes. Considere estos datos (simulados) que tienen una tendencia lineal positiva y un valor atípico muy influyente:

ingrese la descripción de la imagen aquí

Aquí está la gráfica de los valores ajustados frente a los residuos brutos:

ingrese la descripción de la imagen aquí

Observe que el valor del residuo de nuestro punto influyente está más cerca de 0 que los residuos mínimo y máximo del resto de los puntos (no está en los 3 residuos brutos más extremos).

Ahora aquí está la gráfica con los residuos estandarizados (internamente estudiados):

ingrese la descripción de la imagen aquí

En esta gráfica, el residuo estandarizado se destaca porque su influencia ha sido explicada.

En este sencillo ejemplo, es fácil ver lo que está sucediendo, pero ¿y si tuviéramos más de 1 variable y un punto que fuera muy influyente, pero no inusual en las gráficas de 2 dimensiones? No sería obvio a partir de las parcelas de residuos en bruto, pero los residuos estudiados mostrarían ese residuo como más extremo. $x$

— Greg Snow
fuente