Un módulo en línea que estoy estudiando afirma que nunca se debe usar la correlación de Pearson con datos de proporción. Por qué no?
O, si a veces está bien o siempre está bien, ¿por qué?
Un módulo en línea que estoy estudiando afirma que nunca se debe usar la correlación de Pearson con datos de proporción. Por qué no?
O, si a veces está bien o siempre está bien, ¿por qué?
Respuestas:
Esto es para un caso cuando varias variables suman 1, en cada observación. Mi respuesta será nivel de intuición; Esto es intencional (y tampoco soy un experto en datos de composición).
Tengamos iid (por lo tanto, correlacionado con cero) variables de valor positivo que luego resumimos y recalculamos como proporciones de esa suma. Entonces,
each V summing to 1 ( 100%)
¿Disculpe? No te entendi. No pongo ninguna restricción al V individual, solo soy una fracción. Sin embargo, la restricción inicial fue que mi ejemplo supone correlaciones cero antes de convertir V en fracciones.
El enlace de video de su comentario establece el contexto al de las composiciones, que también pueden denominarse mezclas. En estos casos, la suma de la proporción de cada componente se suma a 1. Por ejemplo, el aire es 78% de nitrógeno, 21% de oxígeno y 1% de otro (el total es 100%). Dado que la cantidad de un componente está completamente determinada por los demás, cualquiera de los dos componentes tendrá una relación multilineal perfecta. Para el ejemplo aéreo, tenemos:
por lo que entonces:
Entonces, si conoce dos componentes, el tercero se conoce de inmediato.
En general, la restricción sobre las mezclas es
Puede calcular una correlación entre dos componentes, pero no es informativa , ya que siempre están correlacionados. Puede leer más sobre análisis de composición en Análisis de datos medidos como composición proporcional .
Puede usar la correlación cuando los datos de proporción provienen de diferentes dominios. Digamos que su respuesta es una fracción de píxeles muertos en una pantalla LCD. Podría intentar correlacionar esto con, por ejemplo, la fracción de helio utilizada en un paso de procesamiento químico de la pantalla.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
no está claro. ¿Puedes ampliarlo?
Esta es una pregunta profunda, y con algunas sutilezas que deben ser expresadas. Haré mi mejor esfuerzo, pero a pesar de que he publicado sobre este tema ( Proporcionalidad: una alternativa válida a la correlación de datos relativos ), siempre estoy preparado para sorprenderme con las nuevas ideas sobre el análisis de datos que contienen solo información relativa.
Como han señalado los contribuyentes a este hilo, la correlación es notoria (en algunos círculos) por no tener sentido cuando se aplica a los datos de composición que surgen cuando un conjunto de componentes está obligado a sumarse a una constante (como vemos con proporciones, porcentajes, partes por millón, etc.).
Karl Pearson acuñó el término correlación espuria con esto en mente. (Nota: el popular sitio de correlación espuria de Tyler Vigen no se trata tanto de la correlación espuria como de la falacia de " correlación implica causalidad ").
La sección 1.7 de Aitchison's A Concise Guide to Compositional Data Analysis proporciona una ilustración clásica de por qué la correlación es una medida inapropiada de asociación para datos de composición (por conveniencia, citada en esta Información complementaria .
Los datos de composición surgen no solo cuando se hace un conjunto de componentes no negativos para sumar una constante; se dice que los datos son compositivos siempre que solo contengan información relativa.
Creo que el principal problema con la correlación de datos que solo contienen información relativa está en la interpretación del resultado. Este es un problema que podemos ilustrar con una sola variable; Digamos "donas producidas por dólar de PIB" en todas las naciones del mundo. Si el valor de una nación es más alto que otro, es porque
...¿quién puede decir?
Por supuesto, como la gente comenta sobre este hilo, uno puede calcular las correlaciones de este tipo de variables como una variable descriptiva. Pero, ¿qué significan esas correlaciones?
Tenía la misma pregunta. Encontré esta referencia en biorxiv útil:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporcionalidad: una alternativa válida a la correlación para datos relativos"
En la información de respaldo de este documento (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), los autores mencionan que las correlaciones entre abundancias relativas no proporcionan información en algunos casos. Dan un ejemplo de abundancia relativa de dos expresiones de ARNm. En la Figura S2, las abundancias relativas de los dos ARNm diferentes están perfectamente correlacionadas negativamente, a pesar de que la correlación de estos dos ARNm en valores absolutos no está relacionada negativamente (puntos verdes y puntos morados).
Quizás te pueda ayudar.