@Silverfish solicitó una expansión de la respuesta por parte de PolatAlemdar, que no fue dada, por lo que intentaré ampliarla aquí.
¿Por qué el nombre chisquare distance? La prueba chisquare para tablas de contingencia se basa en
por lo que la idea es mantener este formulario y utilizarlo como una medida de distancia. Esto da la tercera fórmula del OP, conxiinterpretado como observación eyicomo expectativa, lo que explica el comentario de PolatAlemdar "Se usa en distribuciones de probabilidad discretas", como por ejemplo en pruebas de bondad de ajuste. Esta tercera formanoesuna función de distancia, ya que es asimétrica en las variablesxey. Para la comparación de histogramas, querremos una función de distancia que sea simétrica enxey, y las dos primeras formas dan esto. La diferencia entre ellos es solo un factor constante1
χ2=∑cells(Oi−Ei)2Ei
xiyixyxy , lo cual no es importante siempre que solo elija una forma de manera consistente (aunque la versión con factor adicional
112 es mejor si desea comparar con la forma asimétrica). Tenga en cuenta la similitud en estas fórmulas con la distancia euclidiana al cuadrado, eso no es una coincidencia, la distancia chisquare es un tipo dedistancia euclidiana
ponderada. Por esa razón, las fórmulas en el OP generalmente se colocan bajo un signo raíz para obtener
distancias. A continuación seguimos esto.
12
La distancia cuadrangular se usa también en el análisis de correspondencia. Para ver la relación con la forma utilizada allí, dejemos que sean las celdas de una tabla de contingencia con R filas y C columnas. Denote los totales de fila be x + j = ∑ i xxijRC y los totales de columna por x i + = ∑ j x i j . La distancia chisquare entre las filasl,kviene dada por
χ 2 (l,k)=x+j=∑ixijxi+=∑jxijl,k
Para el caso con solo dos filas (los dos histogramas), recupera la primera fórmula del OP (módulo el signo raíz).
χ2(l,k)=∑j1x+j(xljxl+−xkjxk+)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
Respondiendo a la pregunta en los comentarios a continuación: Un libro con largas discusiones sobre la distancia chisquare es "ANÁLISIS DE CORRESPONDENCIA EN LA PRÁCTICA (Segunda edición)" de Michael Greenacre (Chapman & Hall). Es un nombre bien establecido, que proviene de su similitud con chisquare como se usa con tablas de contingencia. ¿Qué distribución tiene? Nunca he estudiado eso, pero probablemente (bajo algunas condiciones ...) tendría alguna distribución chisquare, aproximadamente. Las pruebas deben ser similares a lo que se hace con las tablas de contingencia, la mayoría de la literatura sobre análisis de correspondencia no entra en la teoría de la distribución. Un artículo que tiene algo de teoría, tal vez relevante, es http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Ver también/stats//search?q=%22chisquare+distance%22 para otras publicaciones relevantes en este sitio.