Líneas rectas paralelas en parcela residual vs parcela ajustada

Tengo un problema de regresión múltiple, que intenté resolver usando una regresión múltiple simple:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Esto parece estar explicando el 85% de la varianza (según R cuadrado) que parece bastante bueno.

Sin embargo, lo que me preocupa es la trama Residuals vs Fitted de aspecto extraño, vea a continuación:

ingrese la descripción de la imagen aquí

Sospecho que la razón por la que tenemos tales líneas paralelas es porque el valor Y tiene solo 10 valores únicos correspondientes a aproximadamente 160 de los valores X.

¿Quizás debería usar un tipo diferente de regresión en este caso?

Editar : He visto en el siguiente artículo un comportamiento similar. Tenga en cuenta que es un documento de una sola página, por lo que cuando lo ve, puede leerlo todo. Creo que explica bastante bien por qué observo este comportamiento, pero todavía no estoy seguro de si alguna otra regresión funcionaría mejor aquí.

Edit2: El ejemplo más cercano a nuestro caso que se me ocurre es el cambio en las tasas de interés. FED anuncia nuevas tasas de interés cada pocos meses (no sabemos cuándo y con qué frecuencia). Mientras tanto, reunimos nuestras variables independientes a diario (como la tasa de inflación diaria, los datos del mercado de valores, etc.). Como resultado, tendremos una situación en la que podremos tener muchas mediciones para una tasa de interés.

r regression multiple-regression

— Datageek
fuente

Es casi seguro que necesita alguna otra forma de regresión. Si los datos Y son ordinales (lo cual sospecho), entonces probablemente desee una regresión logística ordinal. Un Rpaquete que hace esto es ordinal, pero también hay otros

— Peter Flom

En realidad, el Y es el precio que intentamos predecir, que cambia cada pocos meses. Tenemos variables de registro semanal (X) para el precio correspondiente (Y) que cambia cada pocos meses. ¿Funcionaría la regresión logística en este caso cuando no sabemos el precio futuro?

— Datageek

Tienes razón sobre la explicación; su referencia lo clavó. Pero su situación parece inusual: parece que tiene solo diez respuestas independientes (que se encuentran en una escala continua, no discreta) pero está utilizando múltiples variables explicativas que varían con el tiempo. Esta no es una situación contemplada por la mayoría de las técnicas de regresión. Más información sobre lo que significan estas variables y cómo se miden podría ayudarnos a identificar un buen enfoque analítico.

— whuber

Un posible modelo es uno de una variable "redondeada" o "censurada": dejar $y_1,\ldots y_{10}$ siendo sus 10 valores observados. Se podría suponer que hay una variable latente $Z$ representando el precio "real", que no conoce completamente. Sin embargo, puedes escribir $Y_i=y_j\Rightarrow{}y_{j-1}\leq{}Z_i\leq{}y_{j+1}$ (con $y_0=-\infty, y_{11}=+\infty$ , si perdonas este abuso de notación). Si está dispuesto a arriesgar una declaración sobre la distribución de Z en cada uno de estos intervalos, una regresión bayesiana se vuelve trivial; una estimación de máxima verosimilitud necesita un poco más de trabajo (pero no mucho, por lo que puedo decir). Los análogos de este problema son tratados por Gelman y Hill (2007).

— Emmanuel Charpentier
fuente

Esta es una buena idea. Se ocupa del fenómeno, pero me pregunto si podría pasar por alto un problema mayor: incluso si los precios pueden considerarse censurados, lo más probable es que estén altamente correlacionados en serie.

— whuber

Probé el paquete censReg R pero no pude hacerlo funcionar. Sin embargo, es posible que no haya entendido tu idea. El hecho es que conocemos todas las variables dependientes, por lo que no tenemos una situación en la que Y = 0 (censurado), es solo que la Y se mantiene estable durante unos meses. Acabo de hacer otra edición, así que espero que esto explique mejor nuestro caso de uso.

— Datageek

Radek, creo que la idea es esta: supongamos que el precio

Y (t)

$Y(t)$ depende del tiempo pero solo cambia en momentos discretos

t_{1}, t_{2}, \dots

$t_1,t_2,\ldots$ . Concebimos esto como la manifestación de alguna variable subyacente no observada (el "precio real")

Z (t)

$Z(t)$ y esperamos que entre tiempos

t_{i}

$t_i$ y

t_{i + 1}

$t_{i+1}$

Z (t)

$Z(t)$ siempre estará entre

Y (t_{i})

$Y(t_i)$ y

Y (t_{i + 1})

$Y(t_{i+1})$ . En efecto, entonces, vemos el precio observado en cualquier momento

t

$t$ en este intervalo como siendo

Z (t)

$Z(t)$ como censurado tanto a la izquierda como a la derecha por

Y (t_{i})

$Y(t_i)$ y

Y (t_{i + 1})

$Y(t_{i+1})$ . (Debo enfatizar "esperanza": esta es la "declaración de riesgo" mencionada).

— whuber

whuber: tienes razón. La publicación original no aludía a una serie de tiempo, así que pasé por alto eso. Creo que para responder a la pregunta, tenemos que arriesgarnos a dos afirmaciones: una sobre la distribución de

Z

$Z$ en los intervalos

(y_{j - 1}, y_{j + 1}

$(y_{j-1}, y_{j+1}$ , y uno sobre la forma del modelo temporal, es decir, la función f vinculante

Z (t)

$Z(t)$ a

f (Z (1), Z (2, \dots, Z (t - 1))

$f(Z(1), Z(2,\ldots,Z(t-1))$ . En un modelo de ERRORES, ambos aspectos se expresarían en declaraciones sobre

Z

$Z$ . Ya no es tan simple ...

— Emmanuel Charpentier