Este problema tiene una sensación exploratoria. John Tukey describe muchos procedimientos para explorar la heterocedasticidad en su clásico, Análisis Exploratorio de Datos (Addison-Wesley 1977). Quizás lo más directamente útil es una variante de su " trama esquemática errante ". Esto divide una variable (como el valor predicho) en contenedores y usa resúmenes de letras m (generalizaciones de diagramas de caja) para mostrar la ubicación, la distribución y la forma de la otra variable para cada contenedor. Las estadísticas de la letra m se suavizan aún más para enfatizar los patrones generales en lugar de las desviaciones fortuitas.
Se puede preparar una versión rápida explotando el boxplot
procedimiento en R
. Ilustramos con datos fuertemente heterocedasticos simulados:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Obtengamos los valores pronosticados y los residuos de la regresión OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Aquí, entonces, está el diagrama esquemático errante usando contenedores de conteo igual para los valores pronosticados. Yo uso lowess
para un rápido y sucio suave.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
La curva azul suaviza las medianas. Su tendencia horizontal indica que la regresión es generalmente un buen ajuste. Las otras curvas suavizan los extremos de la caja (cuartiles) y las cercas (que generalmente son valores extremos). Su fuerte convergencia y posterior separación dan testimonio de la heterocedasticidad, y nos ayudan a caracterizarla y cuantificarla.
(Observe la escala no lineal en el eje horizontal, que refleja la distribución de los valores pronosticados. Con un poco más de trabajo, este eje podría linealizarse, lo que a veces es útil).