Voy a motivar esto intuitivamente e indicar cómo se produce para el caso especial de dos grupos, suponiendo que esté contento de aceptar la aproximación normal al binomio.
Esperemos que eso sea suficiente para que entiendas por qué funciona de la manera en que lo hace.
Estás hablando de la prueba de bondad de ajuste de chi-cuadrado. Digamos que hay grupos (lo tienes como , pero hay una razón por la que prefiero llamarlo ).knk
En el modelo que se aplica para esta situación, los recuentos , son multinomiales .Oii=1,2,...,k
Deje . Los recuentos están condicionados a la suma (excepto en algunas situaciones bastante raras); y hay un conjunto preestablecido de probabilidades para cada categoría, , que suman .N=∑ki=1OiNpi,i=1,2,…,k1
Al igual que con el binomio, hay una aproximación asintótica normal para los multinomios; de hecho, si considera solo el recuento en una celda dada ("en esta categoría" o no), entonces sería binomial. Al igual que con el binomio, las variaciones de los recuentos (así como sus covarianzas en el multinomio) son funciones de y 's; No se estima una varianza por separado.Np
Es decir, si los recuentos esperados son suficientemente grandes, el vector de recuentos es aproximadamente normal con una media . Sin embargo, debido a que los recuentos están condicionados por , la distribución es degenerada (existe en un hiperplano de dimensión , ya que al especificar de los recuentos se corrige el restante). La matriz de varianza-covarianza tiene entradas diagonales y elementos diagonales fuera , y es de rango debido a la degeneración.Ei=NpiNk−1k−1Npi(1−pi)−Npipjk−1
Como resultado, para una celda individual , y podría escribir . Sin embargo, los términos son dependientes (correlacionados negativamente), por lo que si suma los cuadrados de esos no tendrá la (como lo haría si fueran variables estandarizadas independientes). En cambio, podríamos construir un conjunto de variables independientes partir de la original que son independientes y aún aproximadamente normales (asintóticamente normales). Si sumamos sus cuadrados (estandarizados), obtendríamos un . Hay formas de construir tal conjunto deVar(Oi)=Npi(1−pi)zi=Oi−EiEi(1−pi)√ziχ2kk−1kχ2k−1k−1 variables explícitamente, pero afortunadamente hay un atajo muy ordenado que evita lo que equivale a una cantidad sustancial de esfuerzo y produce el mismo resultado (el mismo valor de la estadística) como si nos hubiéramos tomado la molestia.
Considere, por simplicidad, una bondad de ajuste con dos categorías (que ahora es binomial). La probabilidad de estar en la primera celda es , y en la segunda celda es . Hay observaciones en la primera celda, y en la segunda celda.p1=pp2=1−pX=O1N−X=O2
El primer recuento de células observado, es asintóticamente . Podemos estandarizarlo como . Entonces es aproximadamente (asintóticamente ).XN(Np,Np(1−p))z=X−NpNp(1−p)√z2=(X−Np)2Np(1−p)∼χ21∼χ21
Darse cuenta de
∑2i=1(Oi−Ei)2Ei=[X−Np]2Np+[(N−X)−(N−Np)]2N(1−p)=[X−Np]2Np+[X−Np]2N(1−p)=(X−Np)2[1Np+1N(1−p)] .
Pero
1Np+1N(1−p)=Np+N(1−p)Np.N(1−p)=1Np(1−p) .
Entonces que es el comenzamos con - que asintóticamente será una variable aleatoria . La dependencia entre las dos celdas es tal que al zambullirse por lugar de compensamos exactamente la dependencia entre las dos y obtenemos la variable aleatoria al cuadrado original de aproximadamente una normal.∑2i=1(Oi−Ei)2Ei=(X−Np)2Np(1−p)z2χ21EiEi(1−pi)
El mismo enfoque se ocupa del mismo tipo de dependencia de suma cuando hay más de dos categorías: sumando lugar de sobre todos los términos, se efectúa la compensación precisamente por el efecto de la dependencia, y obtener una suma equivalente a la suma de independientes normales.(Oi−Ei)2Ei(Oi−Ei)2Ei(1−pi)kk−1
Hay una variedad de formas de mostrar que la estadística tiene una distribución que asintóticamente para más grande (está cubierto en algunos cursos de estadística de pregrado y se puede encontrar en varios textos de nivel de pregrado), pero no quiero llevarte demasiado más allá del nivel que sugiere tu pregunta. De hecho, las derivaciones son fáciles de encontrar en notas en Internet, por ejemplo, hay dos derivaciones diferentes en el espacio de aproximadamente dos páginas aquíχ2k−1k