Matriz de varianza-covarianza de los errores en regresión lineal


12

¿Cómo se calcula la matriz de error var / cov mediante paquetes de análisis estadístico en la práctica?

Esta idea es clara para mí en teoría. Pero no en la práctica. Quiero decir, si tengo un vector de variables aleatorias , entiendo que la matriz de varianza / covarianza se le dará el producto externo de los vectores de desviación de la media: . Σ Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ]X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

Pero cuando tengo una muestra, los errores de mis observaciones no son variables aleatorias. O mejor, lo son, pero solo si tomo varias muestras idénticas de la misma población. De lo contrario, se les da. Entonces, nuevamente mi pregunta es: ¿cómo puede un paquete estadístico producir una matriz var / cov a partir de una lista de observaciones (es decir, una muestra) suministrada por el investigador?


Los errores de sus observaciones son función de variables aleatorias (las y) y, por lo tanto, son aleatorios. Condicional solo en X, no se dan.
user603

1
Sí, estoy totalmente de acuerdo en eso. Pero lo que dices funciona en teoría. Si dibujo, digamos, 100 muestras aleatorias de tamaño idéntico de la misma población, cada error de observación será una variable aleatoria con (0, sigma ^ 2). ¿Qué pasa si, en cambio, solo saco una muestra? En ese caso, la media del error de cada observación es el error mismo. ¿Está claro lo que estoy diciendo? Entonces, lo que estoy tratando de entender es, ¿cómo calcula un paquete como Stata la matriz de varianza-covarianza usando solo una muestra extraída de la población?
Riccardo

Respuestas:


7

La matriz de covarianza para un modelo del tipo generalmente se calcula como donde es el suma residual de cuadrados, y son los grados de libertad (típicamente el número de observaciones menos el número de parámetros).( X t X ) - 1 σ 2y=Xβ+ϵ σ2σ2=Σi(yi-Xi β )2d

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

Para errores estándar robustos o agrupados, el producto se modifica ligeramente. También puede haber otras formas de calcular la matriz de covarianza, por ejemplo, según lo sugerido por la expectativa de productos externos.XtX


3
  1. Estimación de OLS de la varianza del error , :σ2

s2=ε^ε^np

Esto está incluido en Regresión práctica y Anova usando R por Julian J. Faraway, página 21 .

Ejemplo de su cálculo en R, basado en el modelo lineal de millas por galón regresión en múltiples especificaciones del modelo de coche incluidos en la mtcarsbase de datos: ols = lm(mpg ~ disp + drat + wt, mtcars). Estos son los cálculos manuales y la salida de la lm()función:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. Varianza: matriz de covarianza de los coeficientes estimados , :β^

Var[β^X]=σ2(XX)1

estimado como en la página 8 de este documento en línea como

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

Y=βX+εYXβXY


Hola Rajiv, gracias por la corrección. Entonces, ¿puede explicar cómo Stata (o cualquier otro paquete de estadísticas), a partir de Y (y epsilon), logra derivar la matriz de varianza-covarianza Sigma?
Riccardo

e^e^

De acuerdo con el usuario 603. Consulte la página 21 de cran.r-project.org/doc/contrib/Faraway-PRA.pdf . Esto se basa en R pero incluye una buena discusión de la teoría detrás de la regresión lineal.
Rajiv Sambasivan

Hola a los dos, gracias, en primer lugar. También estoy de acuerdo con usted, usuario603, y esperaba esta respuesta. Pero si la matriz var / cov se calcula calculando el producto externo de los vectores de error, esto significa que la cov entre los componentes del error en la mayoría de los casos no será cero, como implicaría la hipótesis de independencia. ¿Derecho? Esto es alrededor de lo que gira mi duda. Rajiv, busqué la buena guía que sugeriste, pero no pude encontrar una respuesta. Gracias de antemano por cualquier respuesta futura.
Riccardo
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.