Diagrama de líneas rectas diagonales en residuales vs valores ajustados para regresión múltiple


11

Estoy observando patrones extraños en residuos para mis datos: ingrese la descripción de la imagen aquí

[EDITAR] Aquí están los gráficos de regresión parcial para las dos variables:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Se agregó la trama PP http://i.imgur.com/pCKFA.png

La distribución parece estar funcionando bien (ver más abajo) pero no tengo idea de dónde podría provenir esta línea recta. ¿Algunas ideas? ingrese la descripción de la imagen aquí

[ACTUALIZACIÓN 31.07]

Resulta que tenías toda la razón, tuve casos en los que el recuento de retweets fue de hecho 0 y estos ~ 15 casos resultaron en esos patrones residuales extraños.

Los residuos se ven mucho mejor ahora: http://i.imgur.com/XGas9.png

También he incluido las regresiones parciales con una línea de loess. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


¿Podría agregar también la línea ajustada trazada en los datos originales?
MånsT

Además, los subtítulos de las figuras dicen "comunidad: animado" y "comunidad: la astrología", lo que parece dar a entender que estas parcelas provienen de diferentes conjuntos de datos ...
MånsT

Recuerdo haber visto este tipo de patrones en mis residuos cuando mis variables dependientes son categóricas o "no lo suficientemente continuas".
Rey

He agregado el diagrama PP apropiado y los gráficos parciales de los dos IV
plotti

Respuestas:


23

Parece que en algunos de sus subrangos su variable dependiente es constante o depende linealmente de los predictores. Tengamos dos variables correlacionadas, X e Y (Y es dependiente). El diagrama de dispersión está a la izquierda.

ingrese la descripción de la imagen aquí

Regresemos, por ejemplo, a la primera posibilidad ("constante"). Recodifique todos los valores Y desde el más bajo hasta -0.5 a un solo valor -1 (vea la imagen en el centro). Regrese Y en X y grafique la dispersión de los residuos, es decir, gire la imagen central para que la línea de predicción sea horizontal ahora. ¿Se parece a tu foto?


66
¡Eso es estadística forense en su máxima expresión! Un gran +1.
Michael R. Chernick

Resulta que tenías toda la razón, tuve casos en los que el recuento de retuits fue de hecho 0 y estos ~ 15 casos resultaron en esos extraños patrones residuales. i.imgur.com/XGas9.png
plotti

4

No es sorprendente que no vea el patrón en el histograma, el patrón impar abarca bastante del rango del histograma y representa solo unos pocos puntos de datos en cada bin. Realmente necesita averiguar qué puntos de datos son esos y mirarlos. Podrías usar los valores pronosticados y los residuos para encontrarlos lo suficientemente fácil. Una vez que encuentre los valores, comience a investigar por qué esos podrían ser especiales.

Dicho esto, este patrón particular es solo especial porque es largo. Si observa detenidamente su gráfica de residuos y su gráfica de cuantiles, verá que se repite pero que son secuencias más pequeñas. Quizás en realidad solo sea una anomalía. O tal vez realmente es un patrón que se repite. Pero, tendrá que encontrar dónde está en los datos sin procesar y examinarlo para tener alguna esperanza de comprenderlo.

Para darle un poco de ayuda, el gráfico cuantil-cuantil sugiere que tiene un montón de residuos idénticos. Es posible que sea un error de codificación. Puedo generar algo similar en R con ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Tenga en cuenta los dos puntos planos en la línea. Sin embargo, parece más complejo que eso porque hay una implicación de que los residuos idénticos se encuentran en un rango de predictores.


3

Parece que lo estás usando R. Si es así, tenga en cuenta que puede identificar puntos en un diagrama de dispersión usando ? Identificar . Creo que hay varias cosas pasando aquí. Primero, tiene un punto muy influyente en la trama de LN_RT_vol_in ~ LN_AT_vol_in(el resaltado) en aproximadamente (.2, 1.5). Es muy probable que este sea el residuo estandarizado que es aproximadamente -3.7. El efecto de ese punto será aplanar la línea de regresión, inclinándola más horizontalmente que la línea agudamente ascendente que de otro modo habría obtenido. Un efecto de eso es que todos sus residuos se rotarán en sentido contrario a las agujas del reloj en relación con el lugar donde de otro modo se habrían ubicado dentro delresidual ~ predicted trama (al menos cuando se piensa en términos de esa covariable e ignora la otra).

No obstante, la línea recta aparente de los residuos que ve todavía estaría allí, ya que existen en algún lugar de la nube tridimensional de sus datos originales. Pueden ser difíciles de encontrar en cualquiera de las parcelas marginales. Puede usar la función de identificación () para ayudar, y también puede usar la paquete rgl para crear un diagrama de dispersión 3D dinámico que puede rotar libremente con el mouse. Sin embargo, tenga en cuenta que los residuos de línea recta están todos por debajo de 0 en su valor predicho, y tienen por debajo de 0 residuos (es decir, están por debajo de la línea de regresión ajustada); eso te da una gran pista sobre dónde mirar. Mirando de nuevo a tu parcela deLN_RT_vol_in ~ LN_AT_vol_in, Creo que puedo verlos. Hay un grupo bastante recto de puntos que se extiende diagonalmente hacia abajo y hacia la izquierda desde aproximadamente (-.01, -1.00) en el borde inferior de la nube de puntos en esa región. Sospecho que esos son los puntos en cuestión.

En otras palabras, los residuos se ven de esa manera porque ya están en algún lugar dentro del espacio de datos. En esencia, esto es lo que sugiere @ttnphns, pero no creo que sea una constante en ninguna de las dimensiones originales: es una constante en una dimensión en ángulo con respecto a los ejes originales. Además, estoy de acuerdo con @MichaelChernick en que esta aparente rectitud en el gráfico residual es probablemente inofensiva, pero que sus datos no son realmente muy normales. Sin embargo, son algo normales, y parece que tiene una cantidad de datos decente, por lo que el CLT puede cubrirlo, pero es posible que desee arrancar por si acaso. Finalmente, me preocuparía que ese "valor atípico" esté impulsando sus resultados; Un enfoque robusto es probablemente merecido.


1
¿Puede esta afirmación it's a constant in a dimension at an angle to your original axesser comparable con mi is exactly linearly dependent on the predictor(s)o quieres decir algo diferente?
ttnphns

@ttnphns, me perdí esa parte de tu respuesta cuando la hojeé; Vi la "constante" y vi los puntos en tu trama, y ​​eso es lo que me llevé. Sí, "es una constante en una dimensión ..." es lógicamente w / "es exactamente dependiente linealmente ...". Ahora me doy cuenta de que mi punto central es en gran medida el mismo que el tuyo (+1), aunque creo que algunos de mis otros puntos (sobre los cuales los datos son probablemente los culpables, las estrategias R, los enfoques sólidos, etc.) todavía contribuyen algo a la discusión.
gung - Restablece a Monica

Claro, tu respuesta contribuyó mucho, para mí.
ttnphns

1

No necesariamente diría que el histograma está bien. La superposición visual de la mejor adaptación normal en un histograma puede ser engañosa y su histogrsm podría ser sensible a la elección del ancho del contenedor. La gráfica de probabilidad normal parece indicar una gran desviación de lo normal e incluso mirar el histograma parece ser un ligero sesgo (mayor frecuencia en el bin [0, + 0.5] en comparación con el bin [-0.5,0]) y curtosis severa (una frecuencia demasiado grande en los intervalos [-4, -3.5] y [2.5, 3]).

Con respecto al patrón que ve, puede provenir de la exploración selectiva a través del diagrama de dispersión. Parece que si caza un poco más, puede encontrar dos o tres líneas más casi paralelas a la que seleccionó. Creo que estás leyendo demasiado sobre esto. Pero la no normalidad es una preocupación real. Tienes un valor atípico muy grande con un residuo de casi -4. ¿Estos residuos provienen de un ajuste de mínimos cuadrados? Estoy de acuerdo en que podría ser esclarecedor mirar la línea ajustada en un diagrama de dispersión de los datos.


He añadido los gráficos parciales de los dos IV de arrojar más luz sobre esto
Plotti

1
Me gustaría ver lo más básico, la línea ajustada que se ejecuta a través de un diagrama de dispersión de los datos.
Michael R. Chernick
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.