¿Por qué los diagnósticos se basan en residuos?

En la regresión lineal simple, a menudo se quiere verificar si se cumplen ciertos supuestos para poder hacer inferencia (por ejemplo, los residuos se distribuyen normalmente).

¿Es razonable verificar los supuestos comprobando si los valores ajustados se distribuyen normalmente?

regression residuals diagnostic

— bdeonovic
fuente

¿Por qué los diagnósticos se basan en residuos?

Debido a que muchos de los supuestos se relacionan con la distribución condicional de , no con su distribución incondicional. Eso es equivalente a una suposición sobre los errores, que estimamos por los residuos. $Y$

En la regresión lineal simple, a menudo se quiere verificar si se cumplen ciertos supuestos para poder hacer inferencia (por ejemplo, los residuos se distribuyen normalmente).

El supuesto de normalidad real no se trata de los residuos sino del término del error. Lo más cercano a lo que tiene son los residuos, por eso los revisamos.

¿Es razonable verificar verificar los supuestos comprobando si los valores ajustados se distribuyen normalmente?

No. La distribución de los valores ajustados depende del patrón de las 's. No te dice mucho sobre los supuestos. $x$

Por ejemplo, acabo de ejecutar una regresión en datos simulados, para los cuales todos los supuestos se especificaron correctamente. Por ejemplo, la normalidad de los errores fue satisfecha. Esto es lo que sucede cuando intentamos verificar la normalidad de los valores ajustados:

diagnóstico de normalidad en instalaciones

Son claramente no normales; de hecho se ven bimodales. ¿Por qué? Bueno, porque la distribución de los valores ajustados depende del patrón de las 's. Los errores fueron normales, pero los valores ajustados podrían ser casi cualquier cosa. $x$

Otra cosa que la gente suele comprobar (de hecho, con mucha más frecuencia) es la normalidad de s ... pero incondicionalmente en ; De nuevo, esto depende del patrón de s, por lo que no le dice mucho acerca de los supuestos reales. Nuevamente, he generado algunos datos donde se mantienen todos los supuestos; Esto es lo que sucede cuando intentamos verificar la normalidad de los valores incondicionales : $y$ $x$ $x$ $y$

diagnóstico de normalidad en valores y sin procesar

Nuevamente, la no normalidad que vemos aquí (las y están sesgadas) no está relacionada con la normalidad condicional de las s. $y$

De hecho, tengo un libro de texto a mi lado en este momento que analiza esta distinción (entre la distribución condicional y la distribución incondicional de ), es decir, explica en un capítulo anterior por qué solo mirar la distribución de las no es derecho y luego en los capítulos siguientes repetidamente comprueba la hipótesis de normalidad examinado la distribución de las los valores sin tener en cuenta el impacto de la 's para evaluar la idoneidad de los supuestos (otra cosa que suele hacer es mirar simplemente a histogramas para hacer esa evaluación, pero ese es otro problema ). $Y$ $y$ $-$ $y$ $-$ $x$ $-$

¿Cuáles son los supuestos, cómo los verificamos y cuándo necesitamos hacerlos?

Las pueden tratarse como fijas (observadas sin error). Por lo general, no intentamos verificar esto de forma diagnóstica (pero deberíamos tener una buena idea de si es cierto). $x$
La relación entre y la en el modelo está correctamente especificada (por ejemplo, lineal). Si restamos el modelo lineal de mejor ajuste, no debería quedar ningún patrón en la relación entre la media de los residuos . $E(Y)$ $x$ $x$
La varianza constante (es decir, no depende de . La propagación de los errores es constante; puede verificarse mirando la propagación de los residuos contra , o comprobando alguna función de los residuos al cuadrado contra y comprobar los cambios en el promedio (por ejemplo, funciones como el registro o la raíz cuadrada. R usa la cuarta raíz de los residuos al cuadrado). $\text{Var}(Y|x)$ $x$ $x$ $x$
Independencia condicional / independencia de errores. Se pueden verificar formas particulares de dependencia (p. Ej., Correlación serial). Si no puede anticipar la forma de dependencia, es un poco difícil de verificar.
Normalidad la distribución condicional de / normalidad de errores. Puede verificarse, por ejemplo, haciendo un gráfico QQ de residuos. $Y$

(En realidad, hay otras suposiciones que no he mencionado, como los errores aditivos, que los errores tienen una media cero, etc.)

Si solo está interesado en estimar el ajuste de la línea de mínimos cuadrados y no en decir errores estándar, no necesita hacer la mayoría de estos supuestos. Por ejemplo, la distribución de errores afecta la inferencia (pruebas e intervalos), y puede afectar la eficiencia de la estimación, pero la línea LS sigue siendo la mejor lineal imparcial, por ejemplo; entonces, a menos que la distribución sea tan no normal que todos los estimadores lineales sean malos, no es necesariamente un gran problema si las suposiciones sobre el término de error no son válidas.

— Glen_b -Reinstate a Monica
fuente

Agregué algunos diagramas a mi respuesta.

— Glen_b -Reinstala a Monica el

Esta es una respuesta genial. Si quieres más, cubro un territorio algo similar aquí: ¿Qué pasa si los residuos se distribuyen normalmente pero Y no?

— gung - Restablece a Monica

@gung Me estoy pateando por no vincularlo primero.

— Glen_b: reinstala a Mónica el

@Glen: Muy buena disposición. Tuve la misma confusión durante mucho tiempo gracias al trato no tan bueno del tema en los libros de texto y casi en muchos recursos en Internet. Por otro lado, la distribución incondicional de Y casi siempre se examina para deducir un modelo para la distribución condicional, especialmente en el contexto de series de tiempo. ¿Hay un razonamiento teórico detrás de esto? Traté de hacer una pregunta, pero creo que no pude expresarlo correctamente: stats.stackexchange.com/questions/74886/…

— Cagdas Ozgenc

@CagdasOzgenc La única razón por la que se me ocurre hacerlo es porque es fácil de hacer antes de tener un modelo. La respuesta que tiene en esa pregunta vinculada me pareció una buena respuesta cuando se publicó.

— Glen_b -Reinstala a Monica el