¿Por qué ρ de Pearson es solo una medida exhaustiva de asociación si la distribución conjunta es multivariada normal?


Respuestas:


15

Podría ser mejor comprender la "medida de asociación" en una distribución multivariada que consista en todas las propiedades que permanecen iguales cuando los valores se vuelven a escalar y reingresar arbitrariamente. Hacerlo puede cambiar las medias y las variaciones a cualquier valor teóricamente permitido (las variaciones deben ser positivas; las medias pueden ser cualquier cosa).

Los coeficientes de correlación ("Pearson ") determinan completamente una distribución normal multivariante. Una forma de ver esto es mirar cualquier definición de fórmula, como las fórmulas para la función de densidad o la función característica. Implican solo medios, variaciones y covarianzas, pero las covarianzas y las correlaciones pueden deducirse unas de otras cuando se conocen las variaciones.ρ

La familia normal multivariante no es la única familia de distribuciones que disfruta de esta propiedad. Por ejemplo, cualquier distribución t multivariada (para grados de libertad superiores a ) tiene una matriz de correlación bien definida y también está completamente determinada por sus dos primeros momentos.2


¿Estoy en lo cierto según la definición que está aplicando aquí, la covarianza no sería una medida de asociación? Dado que tenderá a expandirse a medida que se expanden las variaciones.
user1205901 - Reinstale Monica

2
Eso es correcto. Aunque la covarianza obviamente está relacionada con una medida de asociación, no es en sí misma porque también se ve afectada por otros factores.
whuber

19

Las variables se pueden asociar de maneras que la correlación de Pearson es completamente ciega.

En la normal multivariada, la correlación de Pearson es "exhaustiva" en el sentido de que la única asociación posible está indexada por . Pero para otras distribuciones (incluso aquellas con márgenes normales), puede haber asociación sin correlación. Aquí hay un par de gráficos de 3 variables aleatorias normales (x, y y x, z); están altamente asociados (si me dices el valor de la variable x , te diré los otros dos, y si me dices el y puedo decirte el z ), pero no están correlacionados.ρXyz

ingrese la descripción de la imagen aquí

Aquí hay otro ejemplo de variantes asociadas pero no correlacionadas:

ingrese la descripción de la imagen aquí

(El punto subyacente se está haciendo sobre las distribuciones, aunque lo estoy ilustrando con datos aquí).

Incluso cuando las variables están correlacionadas, la correlación de Pearson en general no le dice cómo : puede obtener formas de asociación muy diferentes que tienen la misma correlación de Pearson, (pero cuando las variables son multivariadas normales, tan pronto como le digo la correlación puede decir exactamente cómo se relacionan las variables estandarizadas).

ρ

(Una forma común de abordar la asociación multivariada es a través de las cópulas. Existen numerosas preguntas en el sitio que se relacionan con las cópulas; puede encontrar algunas útiles)


¿Hay datos del mundo real con tales distribuciones?

@what ¿Hay datos del mundo real incluso extraídos de distribuciones normales? Lo dudo, así que (dado que mis marginales eran todos normales en los diagramas), la respuesta sería "no" de inmediato. El objetivo de los ejemplos era mostrar claramente por qué la asociación entre variables aleatorias no es tan simple como a veces se supone (¿con qué frecuencia las personas calculan una correlación de Pearson para medir la asociación? Muy a menudo), y también señalar que tener márgenes normales y ser multivariante Los normales son diferentes. Ciertamente, ocurren ejemplos muy reales en los que la correlación de Pearson no captura lo que está sucediendo.
Glen_b -Reinstate Monica

No hablemos de distribuciones por un momento. Cuando calculamos las correlaciones de una nube de puntos, asumimos una correlación ideal subyacente de "forma geométrica" ​​(lineal, hiperbólica, logarítmica, senoidal, etc.) de la cual los puntos en la nube se desvían debido a algún "error". Ahora todas las formas ideales que he visto se abstraen de datos reales donde son continuas (sin interrupciones) y siempre aumentan a lo largo de al menos un eje (es decir, no, por ejemplo, circular). Mi conocimiento de los datos es limitado, por lo que me preguntaba si de hecho había datos del mundo real cuya correlación es no continua o circular.

Por ejemplo, puede haber datos que si trazo se verán como dos nubes de puntos. Si calculo ciegamente las correlaciones en estos datos, podría encontrar una, mientras que (o eso me han dicho) la trama indica claramente que me estoy perdiendo alguna variable de confusión desconocida que, si la tuviera en cuenta, resolvería la relación espuria en mi datos. Si mi profesor mirara sus ejemplos en forma de "x" o "y", me diría que tengo dos subconjuntos distintos de datos mezclados.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.