He tratado de recopilar algunas observaciones sobre la covarianza de distancia en función de mis impresiones al leer las referencias que se enumeran a continuación. Sin embargo, no me considero un experto en este tema. Comentarios, correcciones, sugerencias, etc. son bienvenidos.
Las observaciones están (fuertemente) sesgadas hacia posibles inconvenientes, como se solicitó en la pregunta original .
A mi entender, los posibles inconvenientes son los siguientes:
- La metodología es nueva . Supongo que este es el factor más importante con respecto a la falta de popularidad en este momento. Los documentos que describen la covarianza de distancia comienzan a mediados de la década de 2000 y avanzan hasta la actualidad. El artículo citado anteriormente es el que recibió más atención (¿bombo?) Y tiene menos de tres años. Por el contrario, la teoría y los resultados sobre la correlación y las medidas de correlación tienen más de un siglo de trabajo ya detrás de ellos.
- Los conceptos básicos son más desafiantes . La correlación producto-momento de Pearson, a nivel operativo, se puede explicar a los estudiantes de primer año de la universidad sin un fondo de cálculo con bastante facilidad. Se puede establecer un punto de vista "algorítmico" simple y la intuición geométrica es fácil de describir. Por el contrario, en el caso de la covarianza de distancia, incluso la noción de sumas de productos de distancias euclidianas por pares es bastante más difícil y la noción de covarianza con respecto a un proceso estocástico va mucho más allá de lo que razonablemente podría explicarse a tal audiencia .
- Es computacionalmente más exigente . El algoritmo básico para calcular el estadístico de prueba es en el tamaño de la muestra en lugar de para las métricas de correlación estándar. Para tamaños de muestra pequeños esto no es un gran problema, pero para los más grandes se vuelve más importante.O ( n )O ( n2)O ( n )
- La estadística de prueba no es libre de distribución, incluso asintóticamente . Uno podría esperar que para una estadística de prueba que sea consistente con todas las alternativas, que la distribución, al menos asintóticamente, sea independiente de las distribuciones subyacentes de e bajo la hipótesis nula. Este no es el caso para la covarianza de distancia, ya que la distribución bajo nulo depende de la distribución subyacente de e incluso cuando el tamaño de la muestra tiende al infinito. Se es cierto que las distribuciones son uniformemente delimitadas por una de distribución, que permite el cálculo de un conservador valor crítico.Y X Y χ 2 1XYXYχ21
- La correlación de distancia es una transformación uno a uno deen el caso bivariado normal|ρ| . Esto no es realmente un inconveniente, e incluso podría verse como una fortaleza. Pero, si uno acepta una aproximación normal bivariada a los datos, lo que puede ser bastante común en la práctica, entonces se gana poco, si es que algo, usando la correlación de distancia en lugar de los procedimientos estándar.
- Propiedades de potencia desconocidas . Ser consistente con todas las alternativas esencialmente garantiza que la covarianza de distancia debe tener una potencia muy baja contra algunas alternativas. En muchos casos, uno está dispuesto a renunciar a la generalidad para obtener poder adicional contra alternativas particulares de interés. Los documentos originales muestran algunos ejemplos en los que afirman un alto poder en relación con las métricas de correlación estándar, pero creo que, volviendo a (1.) arriba, su comportamiento frente a las alternativas aún no se entiende bien.
Para reiterar, esta respuesta probablemente sea bastante negativa. Pero esa no es la intención. Hay algunas ideas muy hermosas e interesantes relacionadas con la covarianza a distancia y la relativa novedad de la misma también abre vías de investigación para comprenderla más a fondo.
referencias :
- GJ Szekely y ML Rizzo (2009), Brownian distancia covarianza , Ann. Appl. Estadístico. vol. 3, no. 4, 1236-1265.
- GJ Szekely, ML Rizzo y NK Bakirov (2007), Medición y prueba de independencia por correlación de distancias , Ann. Estadístico. vol. 35, 2769–2794.
- R. Lyons (2012), Covarianza de distancia en espacios métricos ,
Ann. Probab (a aparecer).