¿Cómo se aproxima la estadística de Chi cuadrado de Pearson a una distribución de Chi cuadrado?


10

Entonces, si la estadística de Chi cuadrado de Pearson se da para una tabla , entonces su forma es:1×N

i=1n(OiEi)2Ei

Entonces, esto se aproxima a , la Distribución Chi-Cuadrada con grados de libertad, a medida que el tamaño de la muestra aumenta . χn12n1N

Lo que no entiendo es cómo funciona esta aproximación asintótica. Siento que los en los denominadores deben reemplazarse con . Como eso le daría , para . Pero, por supuesto, esto tiene grados de libertad, no , por lo que claramente está sucediendo algo más.Eisi2niχn2=i=1nZi2Zin(0,1)nn1


Aunque esto no responde a su pregunta , puede arrojar algo de luz al respecto.
whuber

Respuestas:


11

Voy a motivar esto intuitivamente e indicar cómo se produce para el caso especial de dos grupos, suponiendo que esté contento de aceptar la aproximación normal al binomio.

Esperemos que eso sea suficiente para que entiendas por qué funciona de la manera en que lo hace.

Estás hablando de la prueba de bondad de ajuste de chi-cuadrado. Digamos que hay grupos (lo tienes como , pero hay una razón por la que prefiero llamarlo ).knk

En el modelo que se aplica para esta situación, los recuentos , son multinomiales .Oii=1,2,...,k

Deje . Los recuentos están condicionados a la suma (excepto en algunas situaciones bastante raras); y hay un conjunto preestablecido de probabilidades para cada categoría, , que suman .N=i=1kOiNpi,i=1,2,,k1

Al igual que con el binomio, hay una aproximación asintótica normal para los multinomios; de hecho, si considera solo el recuento en una celda dada ("en esta categoría" o no), entonces sería binomial. Al igual que con el binomio, las variaciones de los recuentos (así como sus covarianzas en el multinomio) son funciones de y 's; No se estima una varianza por separado.Np

Es decir, si los recuentos esperados son suficientemente grandes, el vector de recuentos es aproximadamente normal con una media . Sin embargo, debido a que los recuentos están condicionados por , la distribución es degenerada (existe en un hiperplano de dimensión , ya que al especificar de los recuentos se corrige el restante). La matriz de varianza-covarianza tiene entradas diagonales y elementos diagonales fuera , y es de rango debido a la degeneración.Ei=NpiNk1k1Npi(1pi)Npipjk1

Como resultado, para una celda individual , y podría escribir . Sin embargo, los términos son dependientes (correlacionados negativamente), por lo que si suma los cuadrados de esos no tendrá la (como lo haría si fueran variables estandarizadas independientes). En cambio, podríamos construir un conjunto de variables independientes partir de la original que son independientes y aún aproximadamente normales (asintóticamente normales). Si sumamos sus cuadrados (estandarizados), obtendríamos un . Hay formas de construir tal conjunto deVar(Oi)=Npi(1pi)zi=OiEiEi(1pi)ziχk2k1kχk12k1 variables explícitamente, pero afortunadamente hay un atajo muy ordenado que evita lo que equivale a una cantidad sustancial de esfuerzo y produce el mismo resultado (el mismo valor de la estadística) como si nos hubiéramos tomado la molestia.

Considere, por simplicidad, una bondad de ajuste con dos categorías (que ahora es binomial). La probabilidad de estar en la primera celda es , y en la segunda celda es . Hay observaciones en la primera celda, y en la segunda celda.p1=pp2=1pX=O1NX=O2

El primer recuento de células observado, es asintóticamente . Podemos estandarizarlo como . Entonces es aproximadamente (asintóticamente ).XN(Np,Np(1p))z=XNpNp(1p)z2=(XNp)2Np(1p)χ12χ12

Darse cuenta de

i=12(OiEi)2Ei=[XNp]2Np+[(NX)(NNp)]2N(1p)=[XNp]2Np+[XNp]2N(1p)=(XNp)2[1Np+1N(1p)] .

Pero

1Np+1N(1p)=Np+N(1p)Np.N(1p)=1Np(1p) .

Entonces que es el comenzamos con - que asintóticamente será una variable aleatoria . La dependencia entre las dos celdas es tal que al zambullirse por lugar de compensamos exactamente la dependencia entre las dos y obtenemos la variable aleatoria al cuadrado original de aproximadamente una normal.i=12(OiEi)2Ei=(XNp)2Np(1p)z2χ12EiEi(1pi)

El mismo enfoque se ocupa del mismo tipo de dependencia de suma cuando hay más de dos categorías: sumando lugar de sobre todos los términos, se efectúa la compensación precisamente por el efecto de la dependencia, y obtener una suma equivalente a la suma de independientes normales.(OiEi)2Ei(OiEi)2Ei(1pi)kk1

Hay una variedad de formas de mostrar que la estadística tiene una distribución que asintóticamente para más grande (está cubierto en algunos cursos de estadística de pregrado y se puede encontrar en varios textos de nivel de pregrado), pero no quiero llevarte demasiado más allá del nivel que sugiere tu pregunta. De hecho, las derivaciones son fáciles de encontrar en notas en Internet, por ejemplo, hay dos derivaciones diferentes en el espacio de aproximadamente dos páginas aquíχk12k


Gracias, esto tiene sentido. ¿Es esto una coincidencia / accidente matemático que funciona tan bien que solo se divide por el valor esperado? o hay una explicación estadística intuitiva de por qué este debería ser el caso.
Thoth

Hay varias explicaciones que pueden ser intuitivas o no, dependiendo de las cosas que varían de persona a persona. Por ejemplo, si los recuentos observados eran originalmente variables de Poisson independientes, entonces la varianza para la realmente lo llevaría a dividir por (y el Poisson también es asintóticamente normal). Si luego condiciona el total (como arriba), obtiene multinomial. Ya sea que la condición sobre el total o no (es decir, si usted lo trata como Poisson o multinomial), el estimador ML es la misma, por lo que la varianza del estimador que es lo mismo - (CTD)zEi
Glen_b -Reinstate Mónica

(ctd) ... Como resultado, debe dividir por y la varianza debe salir exactamente a la derecha. [Sin embargo, solo tiene df.]Eik1
Glen_b -Reinstale a Monica el

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.