Manejemos el caso más simple para tratar de proporcionar la mayor intuición. Sea una muestra iid de una distribución discreta con k resultados. Sea π 1 , ... , π k las probabilidades de cada resultado particular. Estamos interesados en la distribución (asintótica) de la estadística de chi-cuadrado
X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xnkπ1,…,πk
Aquí n π i es el número esperado de los cargos de la i ª resultado.
X2=∑i=1k(Si−nπi)2nπi.
nπii
Una sugerente heurística
Definir , de modo queX2=∑iU 2 i =‖U‖ 2 2 dondeU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√X2=∑iU2i=∥U∥22U=(U1,…,Uk)
Como es B i n ( n , π i ) , entonces por el Teorema del límite central ,
T i = U iSiBin(n,πi)
por lo tanto, también tenemos que, U i d → N ( 0 , 1 - π i ) .
Ti=Ui1−πi−−−−−√=Si−nπinπi(1−πi)−−−−−−−−−√→dN(0,1),
Ui→dN(0,1−πi)
Ahora, si la fueron (asintóticamente) independiente (que no lo son), entonces se podría argumentar que
Σ i T 2 i era asintóticamente χ 2 k distribuye. Pero, tenga en cuenta que T k es una función determinista de ( T 1 , ... , T k - 1 ) y, por lo tanto, las variables T i no pueden ser independientes.Ti∑iT2iχ2kTk(T1,…,Tk−1)Ti
Por lo tanto, debemos tener en cuenta la covarianza entre ellos de alguna manera. Resulta que la forma "correcta" de hacer esto es usar lugar, y la covarianza entre los componentes de U también cambia la distribución asintótica de lo que podríamos haber pensado que era χ 2 k a lo que, de hecho, es a χ 2 k - 1 .UiUχ2kχ2k−1
Algunos detalles sobre esto siguen.
Un tratamiento más riguroso.
No es difícil comprobar que, de hecho,
parai≠j.Cov(Ui,Uj)=−πiπj−−−−√i≠j
Entonces, la covarianza de es
A = I - √U
donde √
A=I−π−−√π−−√T,
. Tenga en cuenta que
Aes simétrica y idempotente, es decir,
A=A2=AT. Entonces, en particular, si
Z=(Z1,…,Zk)tiene iid componentes normales estándar, entonces
AZ∼N(0,A). (
Nota: la distribución normal multivariada en este caso es
degenerada).
π−−√=(π1−−√,…,πk−−√)AA=A2=ATZ=(Z1,…,Zk)AZ∼N(0,A)
Ahora, por el multivariado teorema del límite central , el vector de tiene una distribución asintótica normal multivariante con media 0 y covarianza A .U0A
Entonces, tiene la misma distribución asintótica que A Z , por lo tanto, la misma distribución asintótica de
X 2 = U T U es la misma que la distribución de Z T A T A Z = Z T A Z por el teorema de mapeo continuo .UAZX2=UTUZTATAZ=ZTAZ
Arank(A)AA=QDQTQDrank(A)
ZTAZχ2k−1Ak−1
Otras conexiones
La estadística de chi-cuadrado también está estrechamente relacionada con las estadísticas de razón de probabilidad. De hecho, es una estadística de puntuación Rao y puede verse como una aproximación de la serie Taylor de la estadística de razón de probabilidad.
Referencias
Este es mi propio desarrollo basado en la experiencia, pero obviamente influenciado por textos clásicos. Buenos lugares para buscar para aprender más son
- GAF Seber y AJ Lee (2003), Análisis de regresión lineal , 2ª ed., Wiley.
- E. Lehmann y J. Romano (2005), Prueba de hipótesis estadísticas , 3ª ed., Springer. Sección 14.3 en particular.
- DR Cox y DV Hinkley (1979), Estadísticas teóricas , Chapman y Hall.