¿No es revelador que esto haya sido publicado en una revista no estadística de cuya revisión estadística no estamos seguros? Este problema fue resuelto por Hoeffding en 1948 (Annals of Mathematical Statistics 19: 546) quien desarrolló un algoritmo directo que no requiere binning ni pasos múltiples. El trabajo de Hoeffding ni siquiera fue mencionado en el artículo de Science. Esto ha estado en la hoeffd
función R en el Hmisc
paquete durante muchos años. Aquí hay un ejemplo (escriba example(hoeffd)
R):
# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y) # an X
hoeffd(x,y) # also accepts a numeric matrix
D
x y
x 1.00 0.06
y 0.06 1.00
n= 200
P
x y
x 0 # P-value is very small
y 0
hoeffd
utiliza una implementación Fortran bastante eficiente del método de Hoeffding. La idea básica de su prueba es considerar la diferencia entre los rangos conjuntos de X e Y y el producto del rango marginal de X y el rango marginal de Y, adecuadamente escalados.
Actualizar
Desde entonces, he mantenido correspondencia con los autores (que son muy amables por cierto, y están abiertos a otras ideas y continúan investigando sus métodos). Originalmente tenían la referencia Hoeffding en su manuscrito, pero la cortaron (con remordimientos, ahora) por falta de espacio. Si bien la prueba de Hoeffding parece funcionar bien para detectar la dependencia en sus ejemplos, no proporciona un índice que cumpla con sus criterios de ordenar los grados de dependencia de la manera en que el ojo humano puede hacerlo.re
En una próxima versión del Hmisc
paquete R , agregué dos salidas adicionales relacionadas con , a saber, la media y la máximaque son medidas útiles de dependencia. Sin embargo, estas medidas, como , no tienen la propiedad que buscaban los creadores de MIC.| F ( x , y ) - G ( x ) H ( y ) | rereEl | F( x , y) - G ( x ) H( y) |re