Tengo un problema de regresión múltiple, que intenté resolver usando una regresión múltiple simple:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Esto parece estar explicando el 85% de la varianza (según R cuadrado) que parece bastante bueno.
Sin embargo, lo que me preocupa es la trama Residuals vs Fitted de aspecto extraño, vea a continuación:
Sospecho que la razón por la que tenemos tales líneas paralelas es porque el valor Y tiene solo 10 valores únicos correspondientes a aproximadamente 160 de los valores X.
¿Quizás debería usar un tipo diferente de regresión en este caso?
Editar : He visto en el siguiente artículo un comportamiento similar. Tenga en cuenta que es un documento de una sola página, por lo que cuando lo ve, puede leerlo todo. Creo que explica bastante bien por qué observo este comportamiento, pero todavía no estoy seguro de si alguna otra regresión funcionaría mejor aquí.
Edit2: El ejemplo más cercano a nuestro caso que se me ocurre es el cambio en las tasas de interés. FED anuncia nuevas tasas de interés cada pocos meses (no sabemos cuándo y con qué frecuencia). Mientras tanto, reunimos nuestras variables independientes a diario (como la tasa de inflación diaria, los datos del mercado de valores, etc.). Como resultado, tendremos una situación en la que podremos tener muchas mediciones para una tasa de interés.
R
paquete que hace esto esordinal
, pero también hay otros