¿Cómo se comparan las correlaciones Goodman-Kruskal gamma y Kendall tau o Spearman rho?


31

En mi trabajo, estamos comparando clasificaciones predichas versus clasificaciones verdaderas para algunos conjuntos de datos. Hasta hace poco, hemos estado usando Kendall-Tau solo. Un grupo que trabaja en un proyecto similar sugirió que intentemos usar el Goodman-Kruskal Gamma en su lugar, y que lo prefirieron. Me preguntaba cuáles eran las diferencias entre los diferentes algoritmos de correlación de rango.

Lo mejor que encontré fue esta respuesta , que afirma que Spearman se usa en lugar de las correlaciones lineales habituales, y que Kendall-Tau es menos directo y se parece más a Goodman-Kruskal Gamma. Los datos con los que estoy trabajando no parecen tener correlaciones lineales obvias, y los datos están muy sesgados y no son normales.

Además, Spearman generalmente informa una correlación más alta que Kendall-Tau para nuestros datos, y me preguntaba qué dice eso específicamente sobre los datos. No soy estadístico, así que algunos de los documentos que estoy leyendo sobre estas cosas me parecen jerga, lo siento.


3
" Spearman generalmente informa una mejor correlación que Kendall-Tau para nuestros datos, y me preguntaba qué dice eso específicamente sobre los datos " ... probablemente nada; Kendall menudo está más cerca de 0 que Spearman cuando las correlaciones no están realmente cerca de o : mide la asociación de manera diferente; el hecho de que normalmente sea menor en magnitud no significa que la correlación de Spearman sea "mejor"; solo miden cosas diferentes sobre los datos. ¿Qué te llevaría a decir 'mejor correlación'? τ0 ± 1ρ0±1
Glen_b -Reinstala a Monica el

1
Eso fue indirectamente lo mismo que mi pregunta, @Glen_b; excepto que preguntaba por qué los algoritmos informaban una mayor correlación y qué causaría eso. Cambiaré "mejor" a "superior" para que mi significado sea un poco más claro. Tienes razón en que miden cosas diferentes, y que los números realmente no tienen mucho que ver entre sí, pero quería saber qué significaban realmente los números, que se responde en detalle a continuación.
Poik

Respuestas:


29

Spearman rho vs Kendall tau . Estos dos son tan diferentes computacionalmente que no se pueden comparar directamente sus magnitudes. Spearman generalmente es mayor en 1/4 a 1/3 y esto hace que uno concluya incorrectamente que Spearman es "mejor" para un conjunto de datos en particular. La diferencia entre rho y tau está en su ideología, proporción de varianza para rho y probabilidad para tau. Rho es una aplicación habitual de Pearson para los datos clasificados, y al igual que r, es más sensible a los puntos con grandes momentos (es decir, desviaciones del centro de la nube) que a los puntos con pequeños momentos. Por lo tanto, rho es bastante sensible a la forma de la nube después de la clasificaciónhecho: el coeficiente para una nube romboidal oblonga será mayor que el coeficiente para una nube alargada oblonga (porque los bordes afilados del primero son grandes momentos). Tau es una extensión de Gamma y es igualmente sensible a todos los puntos de datos , por lo que es menos sensible a las peculiaridades en la forma de la nube clasificada. Tau es más "general" que rho, porque rho está garantizado solo cuando crees que la relación subyacente (modelo o funcional en la población) entre las variables es estrictamente monotónica. Mientras que Tau permite la curva subyacente no monotónica y mide qué "tendencia" monotónica, positiva o negativa, prevalece allí en general. Rho es comparable con r en magnitud; Tau no lo es.

Kendall tau como Gamma . Tau es solo una forma estandarizada de Gamma. Varias medidas relacionadas tienen numerador pero difieren en el denominador de normalización :PQ

  • Gamma:P+Q
  • Somers 'D ("x dependiente"):P+Q+Tx
  • Somers 'D ("dependiente de y"):P+Q+Ty
  • Somers 'D ("simétrica"): media aritmética de los dos anteriores
  • Kendall's Tau-b corr. (más adecuado para mesas cuadradas): media geométrica de esos dos
  • Kendall's Tau-c corr. (más adecuado para mesas rectangulares):N2(k1)/(2k)
  • Kendall's Tau-a corr. (no hace ajustes para las ataduras):N(N1)/2=P+Q+Tx+Ty+Txy

donde - número de pares de observaciones con "concordancia", - con "inversión"; - número de lazos por la variable X, - por la variable Y, - por ambas variables; - número de observaciones, - número de valores distintos en esa variable donde este número es menor.Q T x T y T x y N kPQTxTyTxyNk

Por lo tanto, tau es directamente comparable en teoría y magnitud con Gamma. Rho es directamente comparable en teoría y magnitud con Pearson . La buena respuesta de Nick Stauner aquí dice cómo es posible comparar rho y tau indirectamente.r

Ver también sobre tau y rho.


14

Aquí hay una cita de Andrew Gilpin (1993) abogando por Maurice Kendall sobre de Spearman por razones teóricas:ρτρ

[De Kendall ] se aproxima a una distribución normal más rápidamente que , como , el tamaño de la muestra, se incrementa; y también es más manejable matemáticamente, particularmente cuando hay lazos. ρ N ττρNτ

No puedo agregar mucho sobre Goodman-Kruskal , aparte de eso parece producir estimaciones cada vez un poco más grandes que el de Kendall en una muestra de datos de encuestas con las que he estado trabajando últimamente ... y, por supuesto, notablemente estimaciones más bajas que de Spearman . Sin embargo, también intenté calcular un par de estimaciones parciales (Foraita y Sobotka, 2012), y esas se acercaron más a la parcial que a la parcial ... Sin embargo, me llevó bastante tiempo de procesamiento, así que me iré las pruebas de simulación o las comparaciones matemáticas con otra persona ... (quién sabría cómo hacerlas ...)τ ρ γ ρ τγτργρτ

Como implica ttnphns , no puede concluir que sus estimaciones son mejores que sus estimaciones solo por magnitud, porque sus escalas difieren (aunque los límites no lo hacen). Gilpin cita a Kendall (1962) como describiendo la relación de aτ ρρτρτρrr2Zrτ

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

τρρρ. Si hay una diferencia sustancial, entonces probablemente sea hora de romper la lupa para determinar qué es responsable.

τrτr

Referencias

Foraita, R. y Sobotka, F. (2012). Validación de modelos gráficos. Paquete gmvalid, v1.23. La red completa de R Archive. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993). Tabla de conversión de Tau de Kendall a Rho de Spearman dentro de las medidas de contexto de la magnitud del efecto para el metanálisis. Medición educativa y psicológica, 53 (1), 87-92.

Kendall, MG (1962). Métodos de correlación de rango (3ª ed.). Londres: Griffin.


9

ρτγγτXYγX1X2YXXXγ


2
Frank, ¿puedes explicarlo Spearman's ρ is related to the probability of majority concordance among random triplets of observationscon más detalles, no muy matemáticamente difícil, si es posible? Gracias.
ttnphns

1
Lo leí hace muchos años, probablemente en un texto estadístico no paramétrico. No he podido encontrar la referencia.
Frank Harrell el

1
Desafortunado ... :-( Porque la declaración en sí es muy intrigante.
ttnphns
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.