Probablemente esté pensando en la prueba dos muestras tporque a menudo es el primer lugar donde aparece la distribución t . Pero en realidad todo lo que significa una prueba t es que la distribución de referencia para el estadístico de prueba es una distribución t . Si Z∼N(0,1) y S2∼χ2d con Z y S2 independientes, entonces
ZS2/d−−−−√∼td
por definición. Estoy escribiendo esto para enfatizar que ladistribución
tes solo un nombre que se le dio a la distribución de esta relación porque surge mucho, y cualquier cosa de esta forma tendrá unadistribución
t. Para la prueba t de dos muestras, esta relación aparece porque debajo de la nula la diferencia de medias es un gaussiano de media cero y la estimación de la varianza para gaussianos independientes es un
χ2independiente (la independencia se puede mostrar a través
del teorema de Basu que utiliza el hecho de que la estimación de la varianza estándar en una muestra gaussiana es auxiliar de la media de la población, mientras que la media de la muestra es completa y suficiente para esa misma cantidad).
Con la regresión lineal, básicamente obtenemos lo mismo. En forma β^∼N(β,σ2(XTX)−1) . Supongamos que S2j=(XTX)−1jj y supongamos que los predictores X no son aleatorios. Si supiéramos σ2 tendríamos
β j - 0
β^j−0σSj∼N(0,1)
bajo el nulo
H0:βj=0por lo que en realidad tendríamos una prueba Z. Pero una vez que se estima
σ2nos encontramos con una
χ2variable aleatoria que, bajo nuestros supuestos de normalidad, resulta ser independiente de nuestra estadística
β jy entonces tenemos un
tdistribución.
β^jt
Aquí están los detalles de eso: suponga . Dejando que H = X ( X T X ) - 1 X T sea la matriz de sombreros, tenemos
‖ e ‖ 2 = ‖ ( I - H ) y ‖ 2 = y T ( I - H ) y . H es idempotente, por lo que tenemos el resultado realmente bueno que
y∼N(Xβ,σ2I)H=X(XTX)−1XT
∥e∥2=∥(I−H)y∥2=yT(I−H)y.
H
con parámetro de no centralidad
δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , así que en realidad este es un
χ 2 centralcon
n - pyT(I−H)y/σ2∼χ2n−p(δ)
δ=βTXT(I−H)Xβ=βT(XTX−XTX)β=0χ2n−pgrados de libertad (este es un caso especial
del teorema de
Cochran ). Estoy usando
para denotar el número de columnas de
X , por lo que si una columna de
X da la intersección, entonces tendríamos predictores de no intersección
p - 1 . Algunos autores usan
p para ser el número de predictores que no interceptan, por lo que a veces es posible que vea algo como
n - p - 1 en los grados de libertad allí, pero es lo mismo.
pXXp−1pn−p−1
El resultado de esto es que , por lo σ 2 : = 1E(eTe/σ2)=n−pfunciona muy bien como estimador deσ2.σ^2:=1n−peTeσ2
Esto significa que
β j
es la relación entre un gaussiano estándar y un chi cuadrado dividido por sus grados de libertad. Para terminar esto, necesitamos mostrar independencia y podemos usar el siguiente resultado:
β^jσ^Sj=β^jSjeTe/(n−p)−−−−−−−−−−√=β^jσSjeTeσ2(n−p)−−−−−−√
Resultado: para y las matrices A y B en R l × k y R m × k respectivamente, A Z y B Z son independientes si y solo si A Σ B T = 0 (esto es ejercicio 58 (b) en el capítulo 1 de Estadística matemática de Jun Shao ).Z∼Nk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0
Tenemos β = ( X T X ) - 1 X T y y e = ( I - H ) y donde y ~ N ( X β , sigma 2 I ) . Esto significa
( X T X ) - 1 X T ⋅ σ 2 I ⋅ ( I - H ) T = σ 2β^=(XTX)−1XTye=(I−H)yy∼N(Xβ,σ2I)
por lo ß ⊥e, y por lo tanto ß ⊥ e T e.
(XTX)−1XT⋅σ2I⋅(I−H)T=σ2((XTX)−1XT−(XTX)−1XTX(XTX)−1XT)=0
β^⊥eβ^⊥eTe
El resultado es que ahora sabemos
β j
como se desee (en todos los supuestos anteriores).
β^jσ^Sj∼tn−p
Here's the proof of that result. Let C=(AB) be the (l+m)×k matrix formed by stacking A on top of B. Then
CZ=(AZBZ)∼N((AμBμ),CΣCT)
where
CΣCT=(AB)Σ(ATBT)=(AΣATBΣATAΣBTBΣBT).
CZ is a multivariate Gaussian and it is a well-known result that two components of a multivariate Gaussian are independent if and only if they are uncorrelated, so the condition
AΣBT=0 turns out to be exactly equivalent to the components
AZ and
BZ in
CZ being uncorrelated.
□