¿Cuándo debo usar cada uno de estos métodos para calcular la correlación?


8

Estoy usando R para el análisis de datos. R proporciona una corrfunción para calcular la correlación. Esta función proporciona tres enfoques / algoritmos diferentes para estimar los corrque son Pearson, Spearman y Kendall. ¿Cuándo debo usar cada uno de estos métodos? ¿Qué factores determinan qué método debe usarse?


Aunque esto está en el contexto de R, la pregunta es de hecho sobre la diferencia entre tres medidas estadísticas. Yo diría que también migre.
Sean Owen

1
Esta pregunta ya se ha hecho en stats.stackexchange.com/questions/45897/… (pero aún no ha recibido ninguna respuesta). Nuestro sitio tiene un extenso material sobre correlación, especialmente comparando los coeficientes de Pearson y Spearman: vea los resultados de búsqueda en stats.stackexchange.com/… .
whuber

Respuestas:


10

El coeficiente de momento del producto de Pearson (parámetro de Pearson) mide la correlación lineal entre variables. Por lo tanto, es apropiado cuando su sospecha de correlación es lineal, lo que puede inspeccionarse visualmente con un gráfico.

El coeficiente de Kendall Tau (parámetro de kendall) y el coeficiente de correlación de Spearman (parámetro de Spearman) son correlaciones de rango de medidas. Por lo tanto, la correlación entre las dos variables no necesita ser lineal. El método de Spearman es básicamente el método de Pearson, pero se aplica en los rangos de los valores (el rango de un valor viene dado por su posición después de ordenar los valores). El método kendal se construye básicamente como una estadística en forma de una relación entre el número adicional de pares ordenados y el número total de pares. Para el método kendal, debido a que se construye como una estadística, uno puede usarlo también en el marco de la prueba de hipótesis, con todos los beneficios (se llama prueba tau).

Todos estos métodos son instrumentos utilizados para inferir algo sobre las dependencias entre variables aleatorias. Ver más en la página dedicada de Wikipedia dedicada a la correlación y la dependencia


¿No es también cierto que Spearman y Pearson también deberían ser idénticos para las relaciones lineales, por lo que, en caso de duda, puede usar Spearman y estar seguro de que no se desanimará si la correlación no es lineal?
cwharland

1
Para ser honesto, no sé si son iguales en una relación lineal. Es seguro que Pearson en las filas es lancero. Sin embargo, durante la transformación a rangos, suceden algunas cosas: Pearson se vuelve más robusto para los valores atípicos, la covarianza se altera irremediablemente, Pearson incorpora ruido posiblemente no independiente (quizás generado por factores de confusión). En general, uso pearson para la inferencia basada en lineal, spearman para verificar si hay algo más que no sea linealidad, más para ordinales (que tiene sentido solo para spearman).
rapaio

@cwharland De hecho, tienden a no ser iguales para las relaciones lineales. En muestras normales bivariadas correlacionadas (que tiene la relación lineal que sugiere), la correlación de Spearman es típicamente (tanto en promedio como en términos de la mediana de su distribución) más cercana a 0 que la de Pearson. Ambos son parciales, pero el Pearson lo es menos.
Glen_b -Reinstate Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.