Estoy tratando de crear un modelo de predicción usando la regresión. Este es el diagrama de diagnóstico para el modelo que obtengo al usar lm () en R:
Lo que leí en el gráfico QQ es que los residuos tienen una distribución de cola pesada, y el gráfico Residuals vs Fitted parece sugerir que la varianza de los residuos no es constante. Puedo domar las colas pesadas de los residuos utilizando un modelo robusto:
fitRobust = rlm(formula, method = "MM", data = myData)
Pero ahí es donde las cosas se detienen. El modelo robusto pesa varios puntos 0. Después de eliminar esos puntos, así es como se ven los residuos y los valores ajustados del modelo robusto:
La heterocedasticidad parece estar todavía allí. Utilizando
logtrans(model, alpha)
del paquete MASS, intenté encontrar un tal que
rlm(formula, method = "MM")
con la fórmula siendo tiene residuos con varianza constante. Una vez que encuentre el, el modelo robusto resultante obtenido para la fórmula anterior tiene el siguiente gráfico Residuals vs Fitted:
Me parece que los residuos aún no tienen una variación constante. He intentado otras transformaciones de respuesta (incluida Box-Cox), pero tampoco parecen una mejora. Ni siquiera estoy seguro de que la segunda etapa de lo que estoy haciendo (es decir, encontrar una transformación de la respuesta en un modelo robusto) sea respaldada por alguna teoría. Agradecería mucho cualquier comentario, pensamiento o sugerencia.