Comprender la prueba t para la regresión lineal

17

Estoy tratando de averiguar cómo realizar algunas pruebas de hipótesis en una regresión lineal (la hipótesis nula no tiene correlación). Cada guía y página sobre el tema con el que me encuentro parece estar usando una prueba t. Pero no entiendo qué significa realmente la prueba t para regresión lineal. Una prueba t, a menos que tenga un entendimiento o modelo mental completamente incorrecto, se usa para comparar dos poblaciones. Pero el regresor y las regresiones no son muestras de poblaciones similares, y es posible que ni siquiera sean de la misma unidad, por lo que no tiene sentido compararlas.

Entonces, cuando se usa una prueba t en una regresión lineal, ¿qué es lo que realmente estamos haciendo?

regression t-test

— jaymmer - Restablece a Monica
fuente

37

Probablemente esté pensando en la prueba dos muestras $t$ porque a menudo es el primer lugar donde aparece la distribución $t$ . Pero en realidad todo lo que significa una prueba $t$ es que la distribución de referencia para el estadístico de prueba es una distribución $t$ . Si $Z \sim \mathcal N(0,1)$ y $S^2 \sim \chi^2_d$ con $Z$ y $S^2$ independientes, entonces

\frac{Z}{\sqrt{S^{2} / d}} \sim t_{d}

$\frac{Z}{\sqrt{S^2 / d}} \sim t_d$ por definición. Estoy escribiendo esto para enfatizar que ladistribución

t

$t$ es solo un nombre que se le dio a la distribución de esta relación porque surge mucho, y cualquier cosa de esta forma tendrá unadistribución

t

$t$ . Para la prueba t de dos muestras, esta relación aparece porque debajo de la nula la diferencia de medias es un gaussiano de media cero y la estimación de la varianza para gaussianos independientes es un

χ^{2}

$\chi^2$ independiente (la independencia se puede mostrar a travésdel teorema de Basu que utiliza el hecho de que la estimación de la varianza estándar en una muestra gaussiana es auxiliar de la media de la población, mientras que la media de la muestra es completa y suficiente para esa misma cantidad).

Con la regresión lineal, básicamente obtenemos lo mismo. En forma $\hat \beta \sim \mathcal N(\beta, \sigma^2 (X^T X)^{-1})$ . Supongamos que $S^2_j = (X^T X)^{-1}_{jj}$ y supongamos que los predictores $X$ no son aleatorios. Si supiéramos $\sigma^2$ tendríamos

\frac{{\hat{β}}_{j} - 0}{σ S_{j}} \sim N (0, 1)

$\frac{\hat \beta_j - 0}{\sigma S_j} \sim \mathcal N(0, 1)$ bajo el nulo

H_{0} : β_{j} = 0

$H_0 : \beta_j = 0$ por lo que en realidad tendríamos una prueba Z. Pero una vez que se estima

σ^{2}

$\sigma^2$ nos encontramos con una

χ^{2}

$\chi^2$ variable aleatoria que, bajo nuestros supuestos de normalidad, resulta ser independiente de nuestra estadística

y entonces tenemos un

distribución.

{\hat{β}}_{j}

$\hat \beta_j$

t

$t$

Aquí están los detalles de eso: suponga . Dejando que sea la matriz de sombreros, tenemos es idempotente, por lo que tenemos el resultado realmente bueno que $y \sim \mathcal N(X\beta, \sigma^2 I)$ $H = X(X^TX)^{-1}X^T$

‖ e ‖^{2} = ‖ (I - H) y ‖^{2} = y^{T} (I - H) y .

$\|e\|^2 = \|(I-H)y\|^2 = y^T(I-H)y.$

H

$H$

con parámetro de no centralidad

, así que en realidad este es un

centralcon

y^{T} (I - H) y / σ^{2} \sim χ_{n - p}^{2} (δ)

$y^T(I-H)y / \sigma^2 \sim \mathcal \chi_{n-p}^2(\delta)$

δ = β^{T} X^{T} (I - H) X β = β^{T} (X^{T} X - X^{T} X) β = 0

$\delta = \beta^TX^T(I-H)X\beta = \beta^T(X^TX - X^T X)\beta = 0$

χ^{2}

$\chi^2$

n - p

$n-p$ grados de libertad (este es un caso especial del teorema de Cochran ). Estoy usando

para denotar el número de columnas de

, por lo que si una columna de

da la intersección, entonces tendríamos predictores de no intersección

. Algunos autores usan

para ser el número de predictores que no interceptan, por lo que a veces es posible que vea algo como

en los grados de libertad allí, pero es lo mismo.

p

$p$

X

$X$

X

$X$

p - 1

$p-1$

p

$p$

n - p - 1

$n-p-1$

El resultado de esto es que , por lo $E(e^Te / \sigma^2) = n-p$ funciona muy bien como estimador de. $\hat \sigma^2 := \frac{1}{n-p} e^T e$ $\sigma^2$

Esto significa que es la relación entre un gaussiano estándar y un chi cuadrado dividido por sus grados de libertad. Para terminar esto, necesitamos mostrar independencia y podemos usar el siguiente resultado:

\frac{{\hat{β}}_{j}}{\hat{σ} S_{j}} = \frac{{\hat{β}}_{j}}{S_{j} \sqrt{e^{T} e / (n - p)}} = \frac{{\hat{β}}_{j}}{σ S_{j} \sqrt{\frac{e^{T} e}{σ^{2} (n - p)}}}

$\frac{\hat \beta_j}{\hat \sigma S_j}= \frac{\hat \beta_j}{S_j\sqrt{e^Te / (n-p)}} = \frac{\hat \beta_j}{\sigma S_j\sqrt{\frac{e^Te}{\sigma^2(n-p)}}}$

Resultado: para y las matrices y en y respectivamente, y son independientes si y solo si (esto es ejercicio 58 (b) en el capítulo 1 de Estadística matemática de Jun Shao ). $Z \sim \mathcal N_k(\mu, \Sigma)$ $A$ $B$ $\mathbb R^{l\times k}$ $\mathbb R^{m\times k}$ $AZ$ $BZ$ $A\Sigma B^T = 0$

Tenemos y donde . Esto significa $\hat \beta = (X^TX)^{-1}X^T y$ $e = (I-H)y$ $y \sim \mathcal N(X\beta, \sigma^2 I)$ por lo, y por lo tanto.

(X^{T} X)^{- 1} X^{T} \cdot σ^{2} I \cdot (I - H)^{T} = σ^{2} ((X^{T} X)^{- 1} X^{T} - (X^{T} X)^{- 1} X^{T} X (X^{T} X)^{- 1} X^{T}) = 0

$(X^TX)^{-1}X^T \cdot \sigma^2 I \cdot (I-H)^T = \sigma^2 \left((X^TX)^{-1}X^T - (X^TX)^{-1}X^TX(X^TX)^{-1}X^T\right) = 0$

\hat{β} ⊥ e

$\hat \beta \perp e$

\hat{β} ⊥ e^{T} e

$\hat \beta \perp e^T e$

El resultado es que ahora sabemos como se desee (en todos los supuestos anteriores).

\frac{{\hat{β}}_{j}}{\hat{σ} S_{j}} \sim t_{n - p}

$\frac{\hat \beta_j}{\hat \sigma S_j} \sim t_{n-p}$

Here's the proof of that result. Let $C = {A \choose B}$ be the $(l+m)\times k$ matrix formed by stacking $A$ on top of $B$ . Then

C Z = (\binom{A Z}{B Z}) \sim N ((\binom{A μ}{B μ}), C Σ C^{T})

$CZ = {AZ \choose BZ} \sim \mathcal N \left({A\mu \choose B\mu}, C\Sigma C^T \right)$ where

C Σ C^{T} = (\binom{A}{B}) Σ (\begin{array}{cc} A^{T} & B^{T} \end{array}) = (\begin{array}{cc} A Σ A^{T} & A Σ B^{T} \\ B Σ A^{T} & B Σ B^{T} \end{array}) .

$C\Sigma C^T = {A \choose B} \Sigma \left(\begin{array}{cc} A^T & B^T \end{array}\right) = \left(\begin{array}{cc}A\Sigma A^T & A\Sigma B^T \\ B\Sigma A^T & B\Sigma B^T\end{array}\right).$

C Z

$CZ$ is a multivariate Gaussian and it is a well-known result that two components of a multivariate Gaussian are independent if and only if they are uncorrelated, so the condition

A Σ B^{T} = 0

$A\Sigma B^T = 0$ turns out to be exactly equivalent to the components

A Z

$AZ$ and

B Z

$BZ$ in

C Z

$CZ$ being uncorrelated.

$\square$

— jld
fuente

3

+1 always enjoy reading your answer.

— Haitao Du

9

@Chaconne's answer is great. But here is a much shorter nonmathematical version!

Since the goal is to compute a P value, you first need to define a null hypothesis. Almost always, that is that the slope is actually horizontal so the numerical value for the slope (beta) is 0.0.

The slope fit from your data is not 0.0. Is that discrepancy due to random chance or due to the null hypothesis being wrong? You can't ever answer that for sure, but a P value is one way to sort-of-kind-of get at an answer.

The regression program reports a standard error of the slope. Compute the t ratio as the slope divided by its standard error. Actually, it is (slope minus null hypothesis slope) divided by the standard error, but the null hypothesis slope is nearly always zero.

Now you have a t ratio. The number of degrees of freedom (df) equals the number of data points minus the number of parameters fit by the regression (two for linear regression).

With those values (t and df) you can determine the P value with an online calculator or table.

It is essentially a one-sample t-test, comparing an observed computed value (the slope) with a hypothetical value (the null hypothesis).

— Harvey Motulsky
fuente

4

The real question is why this is "essentially a one-sample t-test", and I don't see how it can become clear from your answer...

— amoeba says Reinstate Monica