¿Correlación de Pearson de conjuntos de datos con posiblemente desviación estándar cero?

12

Tengo un problema para calcular el coeficiente de correlación de Pearson de los conjuntos de datos con una desviación estándar posiblemente cero (es decir, todos los datos tienen el mismo valor).

Supongamos que tengo los siguientes dos conjuntos de datos:

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

El coeficiente de correlación "r" se calcularía utilizando la siguiente ecuación:

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

Sin embargo, dado que todos los datos del conjunto de datos "y" tienen el mismo valor, la desviación estándar std_dev (y) sería cero y "r" no estaría definida.

¿Hay alguna solución para este problema? ¿O debería usar otros métodos para medir la relación de datos en este caso?

correlation

— Andree
fuente

No hay "relación de datos" en este ejemplo porque y no varía. Asignar cualquier valor numérico a r sería un error.

— whuber

1

@whuber - bien es cierto que la no está definido, pero no necesariamente que el "verdadero" correlación desconocida no puede ser estimado. Solo tengo que usar algo diferente para estimarlo.

r

$r$

ρ

$\rho$

— probabilityislogic

@probabilidad Presupone que se trata de un problema de estimación y no simplemente de caracterización. Pero aceptando eso, ¿qué estimador propondría en el ejemplo? Ninguna respuesta puede ser universalmente correcta porque depende de cómo se usará el estimador (una función de pérdida, en efecto). En muchas aplicaciones, como PCA, parece probable que el uso de cualquier procedimiento que impute un valor a pueda ser peor que otros procedimientos que reconocen no se pueden identificar.

ρ

$\rho$

ρ

$\rho$

— whuber

1

@whuber: estimar es una mala elección de palabras para mí (es posible que haya notado que no soy el mejor creador de palabras), lo que quise decir es que aunque puede no estar identificado de manera única, esto no significa que los datos sean inútiles en contándonos sobre . Mi respuesta da una demostración (fea) de esto desde un punto de vista algebraico.

ρ

$\rho$

ρ

$\rho$

— probabilityislogic

@Probabilidad Parece que su análisis es contradictorio: si efectivamente y está modelado con una distribución normal, entonces una muestra de cinco 2 muestra que este modelo es inapropiado. En última instancia, no obtienes nada por nada: tus resultados dependen en gran medida de las suposiciones hechas sobre los antecedentes. Los problemas originales en la identificación de todavía están ahí, pero todos estos supuestos adicionales los han ocultado. Eso parece en mi humilde opinión solo para ocultar los problemas en lugar de aclararlos.

ρ

$\rho$

— whuber

9

La "teoría del muestreo" le dirá que no existe tal estimación. Pero puede obtener uno, solo debe ser razonable con respecto a su información previa y hacer un trabajo matemático mucho más difícil.

Si especificó un método de estimación bayesiano, y el posterior es el mismo que el anterior, puede decir que los datos no dicen nada sobre el parámetro. Debido a que las cosas pueden ponerse "singulares" en nosotros, entonces no podemos usar espacios de parámetros infinitos. Supongo que debido a que usa la correlación de Pearson, tiene una probabilidad normal bivariada:

p (D | μ_{x}, μ_{y}, σ_{x}, σ_{y}, ρ) = {(σ_{x} σ_{y} \sqrt{2 π (1 - ρ^{2})})}^{- N} e x p (- \frac{\sum_{i} Q_{i}}{2 (1 - ρ^{2})})

$p(D|\mu_x,\mu_y,\sigma_x,\sigma_y,\rho)=\left(\sigma_x\sigma_y\sqrt{2\pi(1-\rho^2)}\right)^{-N}exp\left(-\frac{\sum_{i}Q_i}{2(1-\rho^2)}\right)$ donde

Q_{i} = \frac{(x_{i} - μ_{x})^{2}}{σ_{x}^{2}} + \frac{(y_{i} - μ_{y})^{2}}{σ_{y}^{2}} - 2 ρ \frac{(x_{i} - μ_{x}) (y_{i} - μ_{y})}{σ_{x} σ_{y}}

$Q_i=\frac{(x_i-\mu_x)^2}{\sigma_x^2}+\frac{(y_i-\mu_y)^2}{\sigma_y^2}-2\rho\frac{(x_i-\mu_x)(y_i-\mu_y)}{\sigma_x\sigma_y}$

Ahora, para indicar que un conjunto de datos puede tener el mismo valor, escriba , y luego obtenemos: $y_i=y$

\sum_{i} Q_{i} = N [\frac{(y - μ_{y})^{2}}{σ_{y}^{2}} + \frac{s_{x}^{2} + (\bar{x} - μ_{x})^{2}}{σ_{x}^{2}} - 2 ρ \frac{(\bar{x} - μ_{x}) (y - μ_{y})}{σ_{x} σ_{y}}]

$\sum_{i}Q_i=N\left[\frac{(y-\mu_y)^2}{\sigma_y^2}+\frac{s_x^2 + (\overline{x}-\mu_x)^2}{\sigma_x^2}-2\rho\frac{(\overline{x}-\mu_x)(y-\mu_y)}{\sigma_x\sigma_y}\right]$ donde

s_{x}^{2} = \frac{1}{N} \sum_{i} (x_{i} - \bar{x})^{2}

$s_x^2=\frac{1}{N}\sum_{i}(x_i-\overline{x})^2$

Y así su probabilidad depende de cuatro números, . Por lo tanto, desea una estimación de , por lo que debe multiplicar por un previo e integrar los parámetros molestos . Ahora, para preparar la integración, "completamos el cuadrado" $s_x^2,y,\overline{x},N$ $\rho$ $\mu_x,\mu_y,\sigma_x,\sigma_y$

\frac{\sum_{i} Q_{i}}{1 - ρ^{2}} = N [\frac{{(μ_{y} - [y - (\bar{x} - μ_{x}) \frac{ρ σ_{y}}{σ_{x}}])}^{2}}{σ_{y}^{2} (1 - ρ^{2})} + \frac{s_{x}^{2}}{σ_{x}^{2} (1 - ρ^{2})} + \frac{(\bar{x} - μ_{x})^{2}}{σ_{x}^{2}}]

$\frac{\sum_{i}Q_i}{1-\rho^2}=N\left[\frac{\left(\mu_y-\left[y-(\overline{x}-\mu_x)\frac{\rho\sigma_y}{\sigma_x}\right]\right)^2}{\sigma_y^2(1-\rho^{2})}+\frac{s_x^2}{\sigma_{x}^{2}(1-\rho^{2})} + \frac{(\overline{x}-\mu_x)^2}{\sigma_x^2}\right]$

Ahora deberíamos errar por el lado de la precaución y garantizar una probabilidad normalizada adecuadamente. De esa manera no podemos meternos en problemas. Una de esas opciones es usar un previo débilmente informativo, que solo restringe el rango de cada uno. Entonces tenemos para los medios con anterior plano y para las desviaciones estándar con jeffreys anterior. Estos límites son fáciles de establecer con un poco de "sentido común" pensando en el problema. Tomaré un previo no especificado para , y así obtenemos (el uniforme debería funcionar bien, si no trunca la singularidad en ): $L_{\mu}<\mu_x,\mu_y<U_{\mu}$ $L_{\sigma}<\sigma_x,\sigma_y<U_{\sigma}$ $\rho$ $\pm 1$

p (ρ, μ_{x}, μ_{y}, σ_{x}, σ_{y}) = \frac{p (ρ)}{A σ_{x} σ_{y}}

$p(\rho,\mu_x,\mu_y,\sigma_x,\sigma_y)=\frac{p(\rho)}{A\sigma_x\sigma_y}$

Donde . Esto da un posterior de: $A=2(U_{\mu}-L_{\mu})^{2}[log(U_{\sigma})-log(L_{\sigma})]^{2}$

p (ρ | D) = \int p (ρ, μ_{x}, μ_{y}, σ_{x}, σ_{y}) p (D | μ_{x}, μ_{y}, σ_{x}, σ_{y}, ρ) d μ_{y} d μ_{x} d σ_{x} d σ_{y}

$p(\rho|D)=\int p(\rho,\mu_x,\mu_y,\sigma_x,\sigma_y)p(D|\mu_x,\mu_y,\sigma_x,\sigma_y,\rho)d\mu_y d\mu_x d\sigma_x d\sigma_y$

= \frac{p (ρ)}{A [2 π (1 - ρ^{2})]^{\frac{N}{2}}} \int_{L_{σ}}^{U_{σ}} \int_{L_{σ}}^{U_{σ}} {(σ_{x} σ_{y})}^{- N - 1} e x p (- \frac{N s_{x}^{2}}{2 σ_{x}^{2} (1 - ρ^{2})}) \times

$=\frac{p(\rho)}{A[2\pi(1-\rho^2)]^{\frac{N}{2}}}\int_{L_{\sigma}}^{U_{\sigma}}\int_{L_{\sigma}}^{U_{\sigma}}\left(\sigma_x\sigma_y\right)^{-N-1}exp\left(-\frac{N s_x^2}{2\sigma_{x}^{2}(1-\rho^{2})}\right) \times$

\int_{L_{μ}}^{U_{μ}} e x p (- \frac{N (\bar{x} - μ_{x})^{2}}{2 σ_{x}^{2}}) \int_{L_{μ}}^{U_{μ}} e x p (- \frac{N {(μ_{y} - [y - (\bar{x} - μ_{x}) \frac{ρ σ_{y}}{σ_{x}}])}^{2}}{2 σ_{y}^{2} (1 - ρ^{2})}) d μ_{y} d μ_{x} d σ_{x} d σ_{y}

$\int_{L_{\mu}}^{U_{\mu}}exp\left(-\frac{N(\overline{x}-\mu_x)^2}{2\sigma_x^2}\right)\int_{L_{\mu}}^{U_{\mu}}exp\left(-\frac{N\left(\mu_y-\left[y-(\overline{x}-\mu_x)\frac{\rho\sigma_y}{\sigma_x}\right]\right)^2}{2\sigma_y^2(1-\rho^{2})}\right)d\mu_y d\mu_x d\sigma_x d\sigma_y$

Ahora la primera integración sobre se puede hacer haciendo un cambio de variables y la primera integral sobre convierte en: $\mu_y$ $z=\sqrt{N}\frac{\mu_y-\left[y-(\overline{x}-\mu_x)\frac{\rho\sigma_y}{\sigma_x}\right]}{\sigma_y\sqrt{1-\rho^{2}}}\implies dz=\frac{\sqrt{N}}{\sigma_y\sqrt{1-\rho^{2}}}d\mu_y$ $\mu_y$

\frac{σ_{y} \sqrt{2 π (1 - ρ^{2})}}{\sqrt{N}} [Φ (\frac{U_{μ} - [y - (\bar{x} - μ_{x}) \frac{ρ σ_{y}}{σ_{x}}]}{\frac{σ_{y}}{\sqrt{N}} \sqrt{1 - ρ^{2}}}) - Φ (\frac{L_{μ} - [y - (\bar{x} - μ_{x}) \frac{ρ σ_{y}}{σ_{x}}]}{\frac{σ_{y}}{\sqrt{N}} \sqrt{1 - ρ^{2}}})]

$\frac{\sigma_y\sqrt{2\pi(1-\rho^{2})}}{\sqrt{N}}\left[\Phi\left( \frac{U_{\mu}-\left[y-(\overline{x}-\mu_x)\frac{\rho\sigma_y}{\sigma_x}\right]}{\frac{\sigma_y}{\sqrt{N}}\sqrt{1-\rho^{2}}} \right)-\Phi\left( \frac{L_{\mu}-\left[y-(\overline{x}-\mu_x)\frac{\rho\sigma_y}{\sigma_x}\right]}{\frac{\sigma_y}{\sqrt{N}}\sqrt{1-\rho^{2}}} \right)\right]$

Y puede ver desde aquí que no hay soluciones analíticas posibles. Sin embargo, también vale la pena señalar que el valor no se ha eliminado de las ecuaciones. Esto significa que los datos y la información previa aún tienen algo que decir sobre la verdadera correlación. Si los datos no dicen nada sobre la correlación, entonces simplemente nos quedaríamos con como la única función de en estas ecuaciones. $\rho$ $p(\rho)$ $\rho$

También muestra cómo ese paso al límite de límites infinitos para "desecha" parte de la información sobre , que está contenida en la función CDF normal de aspecto complicado . Ahora, si tiene muchos datos, entonces pasar al límite está bien, no perderá mucho, pero si tiene información muy escasa, como en su caso, es importante mantener cada chatarra que tenga. Significa matemáticas feas, pero este ejemplo no es demasiado difícil de hacer numéricamente. Por lo tanto, podemos evaluar la probabilidad integrada de en valores de digamos bastante facilidad. Simplemente reemplace las integrales por sumas en intervalos lo suficientemente pequeños, para que tenga una suma triple $\mu_y$ $\rho$ $\Phi(.)$ $\rho$ $-0.99,-0.98,\dots,0.98,0.99$

— probabilidadislogica
fuente

@probabilityislogic: Wow. Simplemente guau. Después de ver algunas de sus respuestas, realmente me pregunto: ¿qué debería hacer un tonto como yo para alcanzar un estado mental bayesiano tan flexible?

— steffen

1

@steffen - jajaja. No es tan difícil, solo necesitas practicar. Y siempre recuerde siempre que las reglas de probabilidad de producto y suma son las únicas reglas que necesitará . Extraerán la información que haya, ya sea que la vea o no. Entonces aplica las reglas de producto y suma, luego solo hace las matemáticas. Eso es todo lo que he hecho aquí.

— probabilityislogic

@steffen, y la otra regla, más matemática que estadística, no pase a un límite infinito demasiado temprano en sus cálculos, sus resultados pueden volverse arbitrarios o pueden arrojarse pequeños detalles. Los modelos de error de medición son un ejemplo perfecto de esto (como es esta pregunta).

— probabilityislogic

@probabilityislogic: Gracias, lo tendré en cuenta ... tan pronto como termine de trabajar con mi copia "Análisis Bayesiano";).

— steffen

@probabilityislogic: Si pudieras hacer un humor a un estadístico / investigador no matemático ... ¿sería posible resumir o traducir tu respuesta a un grupo de dentistas o directores de escuelas secundarias o estudiantes de estadística introductoria?

— rolando2

6

Estoy de acuerdo con sesqu en que la correlación no está definida en este caso. Dependiendo de su tipo de aplicación, podría calcular, por ejemplo, la similitud de Gower entre ambos vectores, que es: donde representa el kronecker-delta , aplicado como función en . $gower(v1,v2)=\frac{\sum_{i=1}^{n}\delta(v1_i,v2_i)}{n}$ $\delta$ $v1,v2$

Entonces, por ejemplo, si todos los valores son iguales, gower (.,.) = 1. Si, por otro lado, difieren solo en una dimensión, gower (.,.) = 0.9. Si difieren en cada dimensión, gower (.,.) = 0 y así sucesivamente.

Por supuesto, esta no es una medida de correlación, pero le permite calcular qué tan cerca está el vector con s> 0 del que tiene s = 0. Por supuesto, también puede aplicar otras métricas, si sirven mejor a su propósito.

— steffen
fuente

+1 Esa es una idea creativa. Parece que la "similitud de Gower" es una distancia a escala de Hamming .

— whuber

@whuber: ¡De hecho lo es!

— steffen

0

La correlación no está definida en ese caso. Si debe definirlo, lo definiría como 0, pero considere una diferencia absoluta media simple en su lugar.

— sesqu
fuente

0

Esta pregunta proviene de programadores, por lo que sugeriría que se conecte a cero. No hay evidencia de una correlación, y la hipótesis nula sería cero (sin correlación). Puede haber otro conocimiento del contexto que proporcione una correlación "típica" en un contexto, pero el código podría reutilizarse en otro contexto.

— zbicyclist
fuente

2

Tampoco hay evidencia de falta de correlación, entonces ¿por qué no enchufar 1? O -1? ¿O algo en el medio? ¡Todos conducen a un código reutilizable!

— whuber

@whuber: conecta cero porque los datos están "menos restringidos" cuando es independiente; es por eso que las distribuciones máximas son independientes a menos que especifique explícitamente correlaciones en las restricciones. La independencia puede verse como una suposición conservadora cuando no conoce tales correlaciones, efectivamente está promediando todas las correlaciones posibles .

— probabilityislogic

1

@prob Me pregunto por qué tiene sentido como procedimiento genérico promediar todas las correlaciones. En efecto, este procedimiento sustituye la respuesta definitiva y posiblemente bastante incorrecta "¡cero!" para la respuesta correcta "los datos no nos dicen". Esa diferencia puede ser importante para la toma de decisiones.

— whuber

El hecho de que la pregunta sea de un programador no significa que deba convertir un valor indefinido a cero. Cero significa algo específico en un cálculo de correlación. Lanza una excepción. Deje que la persona que llama decida lo que debe suceder. Su función debe calcular una correlación, no decidir qué hacer si no se puede calcular.

— Jared Becksfort