¿Cómo se le ocurrió a Karl Pearson la estadística de chi-cuadrado?

¿Cómo llegó Pearson con las siguientes estadísticas chi-cuadrado de Pearson en 1900?

que

K = \sum \frac{(O_{i j} - E_{i j})^{2}}{E_{i j}}

$K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}}$

K \sim χ^{2}

$K \sim \chi^2$

¿Tenía en mente chi cuadrado e ideó la métrica (enfoque de abajo hacia arriba), o ideó la estadística y luego demostró que sigue la distribución de chi cuadrado (de arriba hacia abajo)? $K$

Quiero saber por qué eligió esa forma específica y no otras como o , y también por qué dividió el cuadrado con el denominador. $\sum(O_{ij} -E_{ij})^2$ $\sum|O_{ij} -E_{ij}|$

chi-squared descriptive-statistics history

— Alby
fuente

Puede encontrar esto interesante: ¿Por qué cuadrar la diferencia en lugar de tomar el valor absoluto en la desviación estándar?

— gung - Restablece a Monica

Por supuesto, es posible tener cualquier cantidad de estadísticas que pueda usar. Sus alternativas están perfectamente bien, aunque tendría que calcular distribuciones de muestreo para ellas, que diferirían en función del número de celdas. Una cosa que es conveniente acerca de este formulario es que tiene ciertas relaciones con otras distribuciones, por ejemplo, es la distribución de la suma de k al cuadrado estándar aleatorio normal.

— gung - Restablece a Monica

El artículo de Pearson 1900 no tiene derechos de autor, por lo que podemos leerlo en línea .

Debe comenzar señalando que este documento trata sobre la bondad de la prueba de ajuste, no la prueba de independencia u homogeneidad.

Continúa trabajando con la normal multivariada, y el chi-cuadrado surge como una suma de variables normales estandarizadas al cuadrado.

Puede ver en la discusión en p160-161 que está discutiendo claramente la aplicación de la prueba a datos distribuidos multinomiales (no creo que use ese término en ninguna parte). Aparentemente entiende la normalidad multivariada aproximada del multinomio (ciertamente sabe que los márgenes son aproximadamente normales, ese es un resultado muy antiguo, y conoce los medios, las variaciones y las covarianzas, ya que se indican en el documento); Supongo que la mayoría de esas cosas ya son viejas para 1900. (Tenga en cuenta que la distribución de chi-cuadrado en sí se remonta al trabajo de Helmert a mediados de la década de 1870).

Luego, al final de p163, deriva una estadística de chi-cuadrado como "una medida de bondad de ajuste" (la estadística en sí misma aparece en el exponente de la aproximación normal multivariada).

$\chi^2_{12}$

* (tenga en cuenta que no existen los paradigmas de prueba de Fisherian o Neyman-Pearson, sin embargo, vemos claramente que ya aplica el concepto de un valor p).

$(O_i-E_i)^2/E_i$ $m_1$ $m_2$ $m'_1$ $e = m-m'$ $e^2/m$

Gran parte de la forma actual de entender la prueba de chi-cuadrado aún no está en su lugar, pero por otro lado, ya existe bastante (al menos si sabe qué buscar). Mucho sucedió en la década de 1920 (y en adelante) que cambió la forma en que vemos estas cosas.

$E_i$ $E_i$ $E_i$

Agregado en edición:

El artículo de 1983 de Plackett ofrece una buena cantidad de contexto histórico y una especie de guía para el artículo. Recomiendo echarle un vistazo. Parece que es gratis en línea a través de JStor (si inicia sesión), por lo que ni siquiera debería necesitar acceso a través de una institución para leerlo.

Plackett, RL (1983),
"Karl Pearson y la prueba de Chi-cuadrado"
International Statistical Review ,
vol. 51, núm. 1 (abril), págs. 59-72

— Glen_b -Reinstate a Monica
fuente

Acabo de volver a leer esta publicación y cada vez que lo hago, obtengo una visión adicional. @Glen_b Quiero agradecerle su excelente respuesta, que debería haber hecho antes. Si puedo hacer una pregunta adicional, en su explicación sobre cómo dividir por E se ajusta a la covarianza, ¿puede explicar más sobre eso o señalarme el recurso que discute este punto? Puedo entender intuitivamente por qué es necesario "normalizar", pero quiero respaldar mi intuición con la prueba matemática.

— Alby

E_{i}

$E_i$

X_{i}

$X_i$

C o v (X_{i}, X_{j}) = E (X_{i} X_{j}) - E (X_{i}) E (X_{j}) = - E (X_{i}) E (X_{j})

$Cov(X_i,X_j)=E(X_iX_j)-E(X_i)E(X_j)=-E(X_i)E(X_j)$

X_{i}, X_{j}

$X_i,X_j$

> 0

$>0$

Cov (O_{i}, O_{j})

$\text{Cov}(O_i,O_j)$

Gracias por el enlace @Glen_b. Después de leer la publicación, ¡ahora es mucho más claro! Estaba ingenuamente pensando que el denominador está ahí para ajustar las diferencias iniciales de cada celda, por lo tanto, el término "normalizar", pero al leer su publicación me di cuenta de que estaba completamente fuera de lugar.

— Alby

Desafortunadamente, la palabra 'normalizar' tiene al menos tres sentidos diferentes relevantes en las estadísticas. Sin adornos, normalmente solo lo usaría para significar "estandarizar para significar 0 y desviación estándar 1", pero otras personas lo usan para significar "normalizar" en el sentido de normalizar un vector de acuerdo con alguna norma, o incluso para transformarlo en una normalidad aproximada. Dado que aquí es un error, debo saber para evitarlo.

— Glen_b -Reinstale a Monica