Fondo

Supongamos que tenemos un modelo de mínimos cuadrados ordinarios donde tenemos coeficientes en nuestro modelo de regresión, $k$

y = X β + ϵ

$\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon}$

donde es un vector de coeficientes , es la matriz de diseño definida por $\mathbf{\beta}$ $(k\times1)$ $\mathbf{X}$

X = (\begin{matrix} 1 & x_{11} & x_{12} & \dots & x_{1 (k - 1)} \\ 1 & x_{21} & \dots & ⋮ \\ ⋮ & ⋱ & ⋮ \\ 1 & x_{n 1} & \dots & \dots & x_{n (k - 1)} \end{matrix})

$\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix}$ y los errores son IID normal,

ϵ \sim N (0, σ^{2} I) .

$\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 \mathbf{I}\right) \;.$

Minimizamos la suma de los errores al cuadrado al establecer nuestras estimaciones para en $\mathbf{\beta}$

\hat{β} = (X^{T} X)^{- 1} X^{T} y .

$\mathbf{\hat{\beta}}= (\mathbf{X^T X})^{-1}\mathbf{X}^T \mathbf{y}\;.$

Un estimador imparcial de es donde ( ref ). $\sigma^2$

s^{2} = \frac{{‖ y - \hat{y} ‖}^{2}}{n - p}

$s^2 = \frac{\left\Vert \mathbf{y}-\mathbf{\hat{y}}\right\Vert ^2}{n-p}$

\hat{y} \equiv X \hat{β}

$\mathbf{\hat{y}} \equiv \mathbf{X} \mathbf{\hat{\beta}}$

La covarianza de $\mathbf{\hat{\beta}}$ viene dada por

Cov (\hat{β}) = σ^{2} C

$\operatorname{Cov}\left(\mathbf{\hat{\beta}}\right) = \sigma^2 \mathbf{C}$ donde

C \equiv (X^{T} X)^{- 1}

$\mathbf{C}\equiv(\mathbf{X}^T\mathbf{X})^{-1}$ ( ref ).

Pregunta

¿Cómo puedo probar que para $\hat\beta_i$ ,

\frac{{\hat{β}}_{i} - β_{i}}{s_{{\hat{β}}_{i}}} \sim t_{n - k}

$\frac{\hat{\beta}_i - \beta_i} {s_{\hat{\beta}_i}} \sim t_{n-k}$ donde

t_{n - k}

$t_{n-k}$ es un Distribución t con

(n - k)

$(n-k)$ grados de libertad, y el error estándar de

{\hat{β}}_{i}

$\hat{\beta}_i$ se estima mediante

s_{{\hat{β}}_{i}} = s \sqrt{c_{i i}}

$s_{\hat{\beta}_i} = s\sqrt{c_{ii}}$ .

Mis intentos

Sé que para variables aleatorias muestreadas de , puede mostrar que reescribiendo el LHS como y darse cuenta de que el numertor es una distribución normal estándar, y el denominador es la raíz cuadrada de una distribución Chi-cuadrado con df = (n-1) y dividido por (n- 1) ( ref .) Y, por lo tanto, sigue una distribución t con df = (n-1) ( ref ). $n$ $x\sim\mathcal{N}\left(\mu, \sigma^2\right)$

\frac{\bar{x} - μ}{s / \sqrt{n}} \sim t_{n - 1}

$\frac{\bar{x}-\mu}{s/\sqrt{n}} \sim t_{n-1}$

\frac{(\frac{\bar{x} - μ}{σ / \sqrt{n}})}{\sqrt{s^{2} / σ^{2}}}

$\frac{ \left(\frac{\bar x - \mu}{\sigma/\sqrt{n}}\right) } {\sqrt{s^2/\sigma^2}}$

No pude extender esta prueba a mi pregunta ...

¿Algunas ideas? Soy consciente de esta pregunta , pero no lo prueban explícitamente, solo dan una regla general, diciendo que "cada predictor le cuesta un grado de libertad".

— Garrett
fuente

Como es una combinación lineal de variables normales conjuntas, tiene una distribución Normal. Por lo tanto, todo lo que necesita hacer es (1) establecer que ; (2) muestra que es un estimador imparcial de ; y (3) demostrar los grados de libertad en es . Este último ha sido probado en este sitio en varios lugares, como stats.stackexchange.com/a/16931 . Sospecho que ya sabes cómo hacer (1) y (2).

{\hat{β}}_{i}

$\hat\beta_i$

E ({\hat{β}}_{i}) = β_{i}

$\mathbb{E}(\hat\beta_i)=\beta_i$

s_{{\hat{β}}_{i}}^{2}

$s_{\hat\beta_i}^2$

Var ({\hat{β}}_{i})

$\text{Var}(\hat\beta_i)$

s_{{\hat{β}}_{i}}

$s_{\hat\beta_i}$

n - k

$n-k$

— whuber

Desde sabemos que y así sabemos que para cada componente de , donde es el elemento diagonal de . Por lo tanto, sabemos que

\begin{aligned} \hat{β} & = (X^{T} X)^{- 1} X^{T} Y \\ = (X^{T} X)^{- 1} X^{T} (X β + ε) \\ = β + (X^{T} X)^{- 1} X^{T} ε \end{aligned}

$\begin{align*} \hat\beta &= (X^TX)^{-1}X^TY \\ &= (X^TX)^{-1}X^T(X\beta + \varepsilon) \\ &= \beta + (X^TX)^{-1}X^T\varepsilon \end{align*}$

\hat{β} - β \sim N (0, σ^{2} (X^{T} X)^{- 1})

$\hat\beta-\beta \sim \mathcal{N}(0,\sigma^2 (X^TX)^{-1})$

k

$k$

\hat{β}

$\hat\beta$

{\hat{β}}_{k} - β_{k} \sim N (0, σ^{2} S_{k k})

$\hat\beta_k -\beta_k \sim \mathcal{N}(0, \sigma^2 S_{kk})$

S_{k k}

$S_{kk}$

k^{th}

$k^\text{th}$

(X^{T} X)^{- 1}

$(X^TX)^{-1}$

z_{k} = \frac{{\hat{β}}_{k} - β_{k}}{\sqrt{σ^{2} S_{k k}}} \sim N (0, 1) .

$z_k = \frac{\hat\beta_k -\beta_k}{\sqrt{\sigma^2 S_{kk}}} \sim \mathcal{N}(0,1).$

Tome nota de la declaración del Teorema para la distribución de una forma cuadrática idempotente en un vector normal estándar (Teorema B.8 en Greene):

Si y es simétrica y idempotente, entonces se distribuye donde es el rango de . $x\sim\mathcal{N}(0,I)$ $A$ $x^TAx$ $\chi^2_{\nu}$ $\nu$ $A$

Deje que denote el vector residual de regresión y deje que que es la matriz del fabricante residual (es decir, ) . Es fácil verificar que es simétrica e idempotente . $\hat\varepsilon$

M = I_{n} - X (X^{T} X)^{- 1} X^{T},

$M=I_n - X(X^TX)^{-1}X^T \text{,}$

M y = \hat{ε}

$My=\hat\varepsilon$ $M$

Sea un estimador de .

s^{2} = \frac{{\hat{ε}}^{T} \hat{ε}}{n - p}

$s^2 = \frac{\hat\varepsilon^T \hat\varepsilon}{n-p}$

σ^{2}

$\sigma^2$

Entonces necesitamos hacer algo de álgebra lineal. Tenga en cuenta estas tres propiedades de álgebra lineal:

El rango de una matriz idempotente es su rastro.
$\operatorname{Tr}(A_1+A_2) = \operatorname{Tr}(A_1) + \operatorname{Tr}(A_2)$
$\operatorname{Tr}(A_1A_2) = \operatorname{Tr}(A_2A_1)$ si se y es ( esta propiedad es fundamental para la continuación del trabajo ) $A_1$ $n_1 \times n_2$ $A_2$ $n_2 \times n_1$

Entonces

\begin{aligned} rank (M) = Tr (M) & = Tr (I_{n} - X (X^{T} X)^{- 1} X^{T}) \\ = Tr (I_{n}) - Tr (X (X^{T} X)^{- 1} X^{T})) \\ = Tr (I_{n}) - Tr ((X^{T} X)^{- 1} X^{T} X)) \\ = Tr (I_{n}) - Tr (I_{p}) \\ = n - p \end{aligned}

$\begin{align*} \operatorname{rank}(M) = \operatorname{Tr}(M) &= \operatorname{Tr}(I_n - X(X^TX)^{-1}X^T) \\ &= \operatorname{Tr}(I_n) - \operatorname{Tr}\left( X(X^TX)^{-1}X^T) \right) \\ &= \operatorname{Tr}(I_n) - \operatorname{Tr}\left( (X^TX)^{-1}X^TX) \right) \\ &= \operatorname{Tr}(I_n) - \operatorname{Tr}(I_p) \\ &=n-p \end{align*}$

Entonces

\begin{aligned} V = \frac{(n - p) s^{2}}{σ^{2}} = \frac{{\hat{ε}}^{T} \hat{ε}}{σ^{2}} = {(\frac{ε}{σ})}^{T} M (\frac{ε}{σ}) . \end{aligned}

$\begin{align*} V = \frac{(n-p)s^2}{\sigma^2} = \frac{\hat\varepsilon^T\hat\varepsilon}{\sigma^2} = \left(\frac{\varepsilon}{\sigma}\right)^T M \left(\frac{\varepsilon}{\sigma}\right). \end{align*}$

Aplicando el teorema para la distribución de una forma cuadrática idempotente en un vector normal estándar (mencionado anteriormente), sabemos que . $V \sim \chi^2_{n-p}$

Como supuso que se distribuye normalmente, entonces es independiente de , y dado que es una función de , entonces también es independiente de . Por lo tanto, y son independientes entre sí. $\varepsilon$ $\hat\beta$ $\hat\varepsilon$ $s^2$ $\hat\varepsilon$ $s^2$ $\hat\beta$ $z_k$ $V$

Entonces, es la relación de una distribución Normal estándar con la raíz cuadrada de una distribución Chi-cuadrado con los mismos grados de libertad (es decir, ), que es una caracterización de la distribución . Por lo tanto, la estadística tiene una distribución con grados de libertad.

\begin{aligned} t_{k} = \frac{z_{k}}{\sqrt{V / (n - p)}} \end{aligned}

$\begin{align*} t_k = \frac{z_k}{\sqrt{V/(n-p)}} \end{align*}$

n - p

$n-p$

t

$t$ $t_k$ $t$ $n-p$

Entonces puede ser manipulado algebraicamente en una forma más familiar.

\begin{aligned} t_{k} & = \frac{\frac{{\hat{β}}_{k} - β_{k}}{\sqrt{σ^{2} S_{k k}}}}{\sqrt{\frac{(n - p) s^{2}}{σ^{2}} / (n - p)}} \\ = \frac{\frac{{\hat{β}}_{k} - β_{k}}{\sqrt{S_{k k}}}}{\sqrt{s^{2}}} = \frac{{\hat{β}}_{k} - β_{k}}{\sqrt{s^{2} S_{k k}}} \\ = \frac{{\hat{β}}_{k} - β_{k}}{se ({\hat{β}}_{k})} \end{aligned}

$\begin{align*} t_k &= \frac{\frac{\hat\beta_k -\beta_k}{\sqrt{\sigma^2 S_{kk}}}}{\sqrt{\frac{(n-p)s^2}{\sigma^2}/(n-p)}} \\ &= \frac{\frac{\hat\beta_k -\beta_k}{\sqrt{S_{kk}}}}{\sqrt{s^2}} = \frac{\hat\beta_k -\beta_k}{\sqrt{s^2 S_{kk}}} \\ &= \frac{\hat\beta_k -\beta_k}{\operatorname{se}\left(\hat\beta_k \right)} \end{align*}$

— Marcador azul
fuente

También una pregunta secundaria: para el Theorem for the Distribution of an Idempotent Quadratic Form in a Standard Normal Vector, ¿no necesitamos también que sea simétrica? Desafortunadamente, no tengo Greene, así que no puedo ver la prueba, aunque vi que Wikipedia tenía la misma forma que tú . Sin embargo, un contraejemplo parece ser la matriz idempotente que conduce a que no es Chi-Squared ya que podría tomar valores negativos. ..

A

$A$

A = (\begin{matrix} 1 & 1 \\ 0 & 0 \end{matrix})

$A=\begin{pmatrix}1&1\\0&0\end{pmatrix}$

x_{1}^{2} + x_{1} x_{2}

$x_1^2+x_1 x_2$

— Garrett

@Garrett Mis disculpas, debe ser simétrico e idempotente. Se proporciona una prueba como Teorema 3 en este documento: www2.econ.iastate.edu/classes/econ671/hallam/documents/… Afortunadamente, es simétrico e idempotente.

A

$A$

M

$M$

— Marcador azul

A

$A$ es simplemente una representación matricial de una forma cuadrática. Cada forma cuadrática tiene una representación simétrica, por lo que el requisito de simetría de está implícito en la declaración del teorema. (Las personas no usan matrices asimétricas para representar formas cuadráticas.) Por lo tanto, la forma cuadrática está representada de manera única por la matriz que no es idempotente.

A

$A$

(x_{1}, x_{2}) \to x_{1}^{2} + x_{1} x_{2}

$(x_1,x_2)\to x_1^2+x_1x_2$

A = (\begin{matrix} 1 & 1 / 2 \\ 1 / 2 & 0 \end{matrix})

$A=\begin{pmatrix}1&1/2\\1/2&0\end{pmatrix}$

— whuber

¿Por qué implica que es independiente de ? No del todo siguiendo allí.

ϵ \sim N (0, σ^{2})

$\epsilon\sim N(0,\sigma^2)$

\hat{β}

$\hat{\beta}$

\hat{ϵ}

$\hat{\epsilon}$

— Glassjawed

@Glassjawed Dado que tanto como son multivariados normalmente distribuidos, entonces la falta de correlación implica independencia. Uso de expresiones y de arriba, podemos mostrar que .

\hat{β}

$\hat{\beta}$

\hat{ε}

$\hat{\varepsilon}$

\hat{β} = β + {(X^{⊤} X)}^{- 1} X^{⊤} ε

$\hat{\beta} = \beta + \left(X^{\top}X\right)^{-1}X^{\top}\varepsilon$

\hat{ε} = M ε

$\hat{\varepsilon} = M\varepsilon$

Cov (\hat{β}, \hat{ε}) = 0_{p \times n}

$\operatorname{Cov}\left(\hat{\beta}, \hat{\varepsilon}\right) = \mathbf{0}_{p\times n}$

— rzch

Prueba de que los coeficientes en un modelo OLS siguen una distribución t con (nk) grados de libertad

Fondo

Pregunta

Mis intentos