Si dos variables tienen correlación 0, ¿por qué no son necesariamente independientes? ¿Las variables con correlación cero son independientes en circunstancias especiales? Si es posible, estoy buscando una explicación intuitiva, no muy técnica.
Si dos variables tienen correlación 0, ¿por qué no son necesariamente independientes? ¿Las variables con correlación cero son independientes en circunstancias especiales? Si es posible, estoy buscando una explicación intuitiva, no muy técnica.
Respuestas:
La correlación mide la asociación lineal entre dos variables dadas y no tiene la obligación de detectar ninguna otra forma de asociación.
Por lo tanto, esas dos variables podrían estar asociadas de varias otras formas no lineales y la correlación no podría distinguir del caso independiente.
Como un ejemplo muy didáctico, artificial y no realista, uno puede considerar tal que para e . Tenga en cuenta que no solo están asociados, sino que uno es una función del otro. No obstante, su correlación es 0, ya que su asociación es ortogonal a la asociación que la correlación puede detectar.P ( X = x ) = 1 / 3 x = - 1 , 0 , 1 Y = X 2
Existe una falta generalizada de rigor en el uso de la palabra "correlación" por la simple razón de que puede tener supuestos y significados muy diferentes. El uso más simple, más suelto y más común es que existe alguna asociación vaga, relación o falta de independencia entre un par estático de variables aleatorias.
Aquí, la métrica predeterminada a la que se hace referencia generalmente es la correlación de Pearson , que es una medida estandarizada de asociación lineal por pares entre dos variables distribuidas continuamente. Uno de los usos erróneos más comunes de Pearson es informarlo como un porcentaje. Definitivamente no es un porcentaje. La correlación de Pearson , r , oscila entre -1.0 y +1.0 donde 0 significa que no hay asociación lineal . Otros problemas no tan ampliamente reconocidos con el uso de la correlación de Pearson como el valor predeterminado es que en realidad es una medida de linealidad bastante estricta y no robusta que requiere variables de escala de intervalo como entrada (ver el excelente documento de Paul Embrechts sobreCorrelación y dependencia en la gestión de riesgos: propiedades y dificultades aquí: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts señala que hay muchos supuestos falaces sobre la dependencia que comienzan con supuestos de la estructura subyacente y la forma geométrica de estas relaciones:
Estas falacias surgen de una suposición ingenua de que las propiedades de dependencia del mundo elíptico también se mantienen en el mundo no elíptico.
Embrechts apunta a las cópulas como una clase mucho más amplia de métricas de dependencia utilizadas en las finanzas y la gestión de riesgos, de las cuales la correlación de Pearson es solo un tipo.
El departamento de Estadística de Columbia pasó el año académico 2013-2014 enfocado en desarrollar una comprensión más profunda de las estructuras de dependencia: por ejemplo, lineal, no lineal, monotónico, de rango, paramétrico, no paramétrico, potencialmente altamente complejo y con grandes diferencias en la escala. El año terminó con un taller de 3 días y una conferencia que reunió a la mayoría de los principales contribuyentes en este campo ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )
Estos contribuyentes incluyeron a Reshef Brothers, ahora famoso por un artículo científico de 2011 Detección de nuevas asociaciones en grandes conjuntos de datos http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf que ha sido ampliamente criticado (vea AndrewGelman.com para una buena visión general, publicada simultáneamente con el evento de Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Los Reshefs abordaron todas estas críticas en su presentación (disponible en el sitio web de la conferencia de Columbia), así como un algoritmo MIC mucho más eficiente.
Muchos otros estadísticos destacados se presentaron en este evento, incluido Gabor Szekely, ahora en el NSF en DC. Szekely desarrolló sus correlaciones de distancia y distancia parcial . Deep Mukhopadhay, Temple U, presentando su Algoritmo estadístico unificado , un marco para algoritmos unificados de ciencia de datos, basado en el trabajo realizado con Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Y muchos otros. Para mí, uno de los temas más interesantes fue el amplio apalancamiento y el uso de Reproducing Kernel Hilbert Space (RKHS) y el chi-cuadrado. Si hubo un enfoque modal para las estructuras de dependencia en esta conferencia, fue el RKHS.
Los típicos libros de texto de estadísticas de introducción son superficiales en su tratamiento de la dependencia, usualmente se basan en presentaciones del mismo conjunto de visualizaciones de relaciones circulares o parabólicas. Textos más sofisticados profundizarán en el Cuarteto de Anscombe , una visualización de cuatro conjuntos de datos diferentes que poseen propiedades estadísticas simples y similares pero relaciones muy diferentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Una de las mejores cosas de este taller fue la multitud de estructuras de dependencia y relaciones visualizadas y presentadas, que iban mucho más allá del tratamiento estándar y superficial. Por ejemplo, los Reshefs tenían docenas de gráficos en miniatura que representaban solo una muestra de posibles no linealidades. Deep Mukhopadhay tenía imágenes impresionantes de relaciones muy complejas que se parecían más a una vista satelital del Himalaya. Las estadísticas y los autores de libros de texto de ciencia de datos deben tomar nota.
Al salir de la conferencia de Columbia con el desarrollo y la visualización de estas estructuras de dependencia por pares altamente complejas, me quedé cuestionando la capacidad de los modelos estadísticos multivariados para capturar estas no linealidades y complejidades.
Depende de su definición exacta de "correlación", pero no es demasiado difícil construir casos degenerados. "Independiente" podría significar algo así como "ningún poder predictivo, en absoluto, nunca" tanto como "correlación lineal".
La correlación lineal, por ejemplo, no indicaría dependencia de si el dominio de fuera .x [ 0 , 1 )
Básicamente, la dependencia de Y en X significa que la distribución de los valores de Y depende de alguna manera del valor de X. Esa dependencia puede estar en el valor medio de Y (el caso habitual presentado en la mayoría de las respuestas) o cualquier otra característica de Y.
Por ejemplo, que X sea 0 o 1. Si X = 0, entonces Y sea 0, si X = 1, Y sea -1, 0 o 1 (misma probabilidad). X e Y no están correlacionados. En promedio, Y no depende de X porque cualquier valor es X, la media de Y es 0. Pero claramente la distribución de los valores de Y depende del valor de X. En este caso, por ejemplo, la varianza de Y es 0 cuando X = 0 y> 0 cuando X = 1, por lo tanto, existe al menos una dependencia de la varianza, es decir, hay una dependencia.
Entonces, la correlación lineal solo muestra un tipo de dependencia de la media (dependencia lineal), que a su vez es solo un caso especial de dependencia.