Distancia de Mahalanobis entre dos distribuciones bivariadas con diferentes covarianzas

La pregunta está más o menos contenida en el título. ¿Cuál es la distancia de Mahalanobis para dos distribuciones de diferentes matrices de covarianza? Lo que he encontrado hasta ahora supone la misma covarianza para ambas distribuciones, es decir, algo de este tipo:

Δ^{T} Σ^{- 1} Δ

$\Delta^T \Sigma^{-1} \Delta$

¿Qué pasa si tengo dos s diferentes ? $\Sigma$

Nota: - El problema es este: hay dos distribuciones bivariadas que tienen las mismas dimensiones pero que se rotan y traducen entre sí (lo siento, vengo de un fondo matemático puro, no estadístico). Necesito medir su grado de superposición / distancia.

* Actualización: * Lo que podría o no estar implícito en lo que pregunto es que necesito una distancia entre los medios de las dos distribuciones. Yo sé que los medios son, pero ya que las dos distribuciones se rotan una respecto a la otra, lo que necesito para asignar diferentes pesos a diferentes orientaciones y por lo tanto un simple distancia euclídea entre los medios no funciona. Ahora, como lo he entendido, la distancia de Mahalanobis no se puede usar para medir esta información si las distribuciones tienen una forma diferente (aparentemente funciona con dos distribuciones normales multivariadas de covarianzas idénticas, pero no en el caso general). ¿Existe una buena medida que codifique este deseo de codificar orientaciones con diferentes pesos?

normal-distribution multivariate-analysis distance-functions

— Kristian D'Amato
fuente

La distancia de Mahalanobis no tiene sentido cuando las distribuciones difieren. (Es como decir "Peter vive en una esfera y Paul vive en un avión euclidiano; ¿cómo calculamos la distancia entre ellos?") Tal vez podría retroceder un paso y ayudarnos a comprender la motivación de la pregunta: ¿qué es exactamente lo que hace? quieres lograr aquí? ¿Cuál es el contexto estadístico?

— Whuber

Muy bien, sospechaba mucho. La razón por la que pregunto es que he visto la siguiente ecuación que se usa para calcular una distancia de 'Mahalanobis', o eso decía: I ' No estoy muy seguro de que sea una distancia de Mahalanobis; Solo estoy reflejando lo que se reclamó. ¿Funcionaría mejor una distancia de Bhattacharya en su lugar?

Δ^{T} \(Σ_{1} Σ_{2} {\)}^{- 1} Δ

$\Delta^T $\Sigma_1 \Sigma_2$^{-1} \Delta$

— Kristian D'Amato

@ k-damato La distancia de Mahalanobis mide la distancia entre puntos, no distribuciones.

— vqv

Muy bien, ¿alguien reconoce la ecuación anterior como algo significativo? Los deltas son vectores de desplazamiento.

— Kristian D'Amato

@ Kristian He fusionado tus dos cuentas duplicadas. Utilice su cuenta registrada, de ahora en adelante.

— chl

Respuestas:

Hay muchas nociones de distancia entre las distribuciones de probabilidad. Cuál usar depende de tus objetivos. La distancia de variación total es una forma natural de medir la superposición entre distribuciones. Si está trabajando con normales multivariantes, la divergencia Kullback-Leibler es matemáticamente conveniente. Aunque en realidad no es una distancia (ya que no puede ser simétrica y no obedece a la desigualdad del triángulo), limita la distancia de variación total (ver Desigualdad de Pinsker) .

— vqv
fuente

un par de discusiones recientes aquí se han centrado en modificaciones a la divergencia de KL que resultan en una métrica adecuada. En caso de que esté interesado, vea aquí y aquí .

— Cardenal

Introducción Como @vqv mencionó La variación total y Kullback Leibler son dos distancias interesantes. El primero es significativo porque puede estar directamente relacionado con los errores de primer y segundo tipo en las pruebas de hipótesis. El problema con la distancia de variación total es que puede ser difícil de calcular. La distancia de Kullback Leibler es más fácil de calcular y lo abordaré más adelante. No es simétrico, pero puede hacerse simétrico (de alguna manera artificial).

Respuesta Algo que menciono aquí es que si es la razón de probabilidad logarítmica entre sus dos medidas gaussianas (digamos que para tiene una medida de error media y covarianza ) que también se cruza (en el caso gaussiano lo encontré bastante central en realidad) es $\mathcal{L}$ $P_0,P_1$ $i=0,1$ $P_i$ $\mu_i$ $C_i$

‖ L ‖_{L_{2} (P_{1 / 2})}^{2}

$\|\mathcal{L}\|^2_{L_2(P_{1/2})}$

para un bien elegido . $P_{1/2}$

En palabras simples :

puede haber diferentes "direcciones" interesantes rotaciones, que se obtienen mediante su fórmula con uno de los "interpolada" covarianza matrices ( o ) definido en el extremo de esta publicación (el número es el que propones en tu comentario a tu pregunta). $\Sigma=C_{i,1/2}$ $i=1,2,3,4$ $5$ $5$
Como sus dos distribuciones tienen covarianzas diferentes, no es suficiente comparar las medias , también debe comparar las covarianzas.

Déjeme explicar por qué esto es mi sentimiento, cómo se puede calcular esto en el caso de y cómo elegir . $C_1\neq C_0$ $P_{1/2}$

Caso lineal Si . $C_1=C_0=\Sigma$

σ = Δ Σ^{- 1} Δ = ‖ 2 L ‖_{L_{2} (P_{1 / 2})}^{2}

$\sigma= \Delta \Sigma^{-1} \Delta=\|2\mathcal{L}\|^2_{L_2(P_{1/2})}$

donde es el "Interpolar" entre y (gaussiana con covarianza y media ). Tenga en cuenta que en este caso, la distancia de Hellinger, la distancia de variación total se puede escribir usando . $P_{1/2}$ $P_1$ $P_0$ $\Sigma$ $(\mu_1+\mu_0)/2$ $\sigma$

Cómo calcular en el caso general $\mathcal{L}$ Una pregunta natural que surge de su pregunta (y la mía ) es qué es una "interpolación" natural entre y cuando . Aquí, la palabra natural puede ser específico de usuario, pero por ejemplo puede estar relacionado con la mejor interpolación de tener un límite superior ajustado con otra distancia (por ejemplo, distancia aquí ) $P_1$ $P_0$ $C_1\neq C_0$ $L_1$

Escribiendo () puede ayudar a ver dónde está la tarea de interpolación, pero:

L = ϕ (C_{i}^{- 1 / 2} (x - μ_{i})) - ϕ (C_{j}^{- 1 / 2} (x - μ_{j})) - \frac{1}{2} \log (C_{i} C_{j}^{-})

$\mathcal{L}= \phi (C^{-1/2}_i(x-\mu_i))-\phi (C^{-1/2}_j(x-\mu_j))-\frac{1}{2}\log \left ( C_iC_j^{-}\right )$

i = 0, j = 1

$i=0,j=1$

L (x) = - \frac{1}{2} ⟨ A_{i j} (x - s_{i j}), x - s_{i j} ⟩_{R^{p}} + ⟨ G_{i j}, x - s_{i j} ⟩_{R^{p}} - c_{i j}, [1]

$\mathcal{L}(x)=-\frac{1}{2}\langle A_{ij}(x-s_{ij}),x-s_{ij}\rangle_{\mathbb{R}^p}+\langle G_{ij},x-s_{ij}\rangle_{\mathbb{R}^p}-c_{ij}, \;[1]$

con

A_{i j} = C_{i}^{-} - C_{j}^{-}, G_{i j} = S_{i j} m_{i j}, S_{i j} = \frac{C_{i}^{-} + C_{j}^{-}}{2},

$A_{ij}=C_i^{-}-C_j^{-},\;\; G_{ij}=S_{ij}m_{ij},\;\; S_{ij}=\frac{C_i^{-}+C_j^{-}}{2},$

c_{i j} = \frac{1}{8} ⟨ A_{i j} m_{i j}, m_{i j} ⟩_{R^{p}} + \frac{1}{2} \log | det (C_{j}^{-} C_{i}) |

$c_{ij}=\frac{1}{8}\langle A_{ij} m_{ij},m_{ij}\rangle_{\mathbb{R}^p}+\frac{1}{2}\log|\det(C_j^{-}C_i)|$

m_{i j} = μ_{i} - μ_{j} a n d s_{i j} = \frac{μ_{i} + μ_{j}}{2}

$m_{ij}=\mu_i-\mu_j \;\; and\;\; s_{ij}=\frac{\mu_i+\mu_j}{2}$

es más relevante para fines computacionales. Para cualquier gaussiano con media y covarianza el cálculo de de la ecuación es un poco técnico pero faisible. También puede usarlo para calcular la distancia del leulizador Kulback. $P_{1/2}$ $s_{01}$ $C$ $\|\mathcal{L}\|^2_{L_2(P_{1/2})}$ $1$

Qué interpolación deberíamos elegir (es decir, cómo elegir ) $P_{1/2}$ Se entiende claramente de la Ecuación que hay muchos candidatos diferentes para (interpolar) en el caso "cuadrático". Los dos candidatos que encontré "más naturales" (subjetivos :)) surgen de definir para una distribución gaussiana con media : $1$ $P_{1/2}$ $t\in [0,1]$ $P_t$ $t\mu_1+(1-t)\mu_0$

$P^1_t$ como la distribución de (donde se extrae de ) que tiene la covarianza ). $ξ_{t} = t ξ_{1} + (1 - t) ξ_{0 0}$ $\xi_t=t\xi_1+(1-t)\xi_0$ $\xi_i$ $P_i$ $i=0,1$ $C_{t,1}=(tC_1^{1/2}+(1-t)C_0^{1/2})^2$
$P^2_t$ con covarianza inversa $C_{t,2}^{-1}=tC_{1}^{-1}+(1-t)C_0^{-1}$
$P^3_t$ con covarianza $C_{t,3}=tC_1+(1-t)C_0$
$P^4_t$ con covarianza inversa $C_{t,4}^{-1}=(tC^{-1/2}_1+(1-t)C^{-1/2}_0)^{2}$

EDITAR: El que propone en un comentario a su pregunta podría ser , por qué no ... $C_{t,5}=C_1^{t}C_0^{1-t}$

Tengo mi opción favorita, que no es la primera :) no tengo mucho tiempo para discutir eso aquí. Tal vez edite esta respuesta más tarde ...

— robin girard
fuente

Esto es antiguo, pero para otros que están leyendo esto, la matriz de covarianza refleja la rotación de las distribuciones gaussianas y la media refleja la traducción o la posición central de la distribución. Para evaluar la distancia mahab, es simplemente D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Ahora, si sospecha que las dos distribuciones bivariadas son iguales, pero sospecha que se han rotado, calcule los dos pares de vectores propios y valores propios para cada distribución. Los vectores propios apuntan en la dirección de la propagación de los datos bivariados a lo largo de los ejes mayor y menor, y los valores propios indican la longitud de esta expansión. Si los valores propios son los mismos, entonces las dos distribuciones son las mismas pero rotadas. Tome el producto puntual entre los vectores propios para obtener el ángulo de rotación.

— tempestad
fuente