¿Cómo cambia la similitud de coseno después de una transformación lineal?

9

¿Existe una relación matemática entre:

la similitud del coseno de dos vectores y , y $\operatorname{sim}(A, B)$ $A$ $B$
¿La similitud del coseno de y , escalada de manera no uniforme a través de una matriz dada ? Aquí es una matriz diagonal dada con elementos desiguales en la diagonal. $\operatorname{sim}(MA, MB)$ $A$ $B$ $M$ $M$

Intenté repasar los cálculos, pero no pude alcanzar un enlace simple / interesante (expresión). Me pregunto si hay uno.

Por ejemplo, los ángulos no se conservan en una escala no uniforme, pero ¿cuál es la relación entre los ángulos originales y los posteriores a la escala no uniforme? ¿Qué se puede decir sobre el enlace entre un conjunto de vectores S1 y otro conjunto de vectores S2, donde S2 se obtiene escalando de manera no uniforme S1?

linear-algebra cosine-similarity

— turdus-merula
fuente

@whuber, gracias! Sí, M es una matriz dada (una matriz de escala, por lo tanto, una matriz diagonal, sin otras restricciones). En cierto sentido, quería saber qué sucede (en términos de la similitud del coseno para cualquier par de vectores) con un espacio vectorial que sufre una escala no lineal.

— turdus-merula

2

Vale la pena señalar que si todos los factores de escala no son negativos (como uno supondría naturalmente), entonces todas las matrices simétricas positivas definidas pueden considerarse matrices de "escala". La relación que busca se usa ampliamente, entre otras cosas , en el estudio y la descripción de la distorsión en las proyecciones de mapas. Allí, el interés se centra en los ángulos máximo y mínimo en la superficie de la tierra que se asociarían con dos direcciones perpendiculares en el mapa. Existe una relación directa entre estos ángulos y las proporciones de los dos factores de escala.

— whuber

8

Debido a que es bastante general, y el cambio en la similitud del coseno depende de y particulares y su relación con , no es posible una fórmula definida. Sin embargo, existen límites prácticamente calculables de cuánto puede cambiar la similitud del coseno . Se pueden encontrar extremizando el ángulo entre y dado que la similitud del coseno entre y es un valor especificado, digamos (donde es el ángulo entre y ). La respuesta nos dice cuánto cualquier ángulo $M$ $A$ $B$ $M$ $MA$ $MB$ $A$ $B$ $\cos(2\phi)$ $2\phi$ $A$ $B$ $2\phi$ posiblemente se puede doblar por la transformación . $M$

Los cálculos amenazan con ser desordenados. Algunas opciones inteligentes de notación, junto con algunas simplificaciones preliminares, reducen el esfuerzo. Resulta que la solución en dos dimensiones revela todo lo que necesitamos saber. Este es un problema manejable, que depende solo de una variable real , que se resuelve fácilmente utilizando técnicas de cálculo. Un argumento geométrico simple extiende esta solución a cualquier cantidad de dimensiones . $\theta$ $n$

Preliminares matemáticos

Por definición, el coseno del ángulo entre dos vectores y se obtiene normalizándolos a la unidad de longitud y tomando su producto. Así, $A$ $B$

\frac{A^{'} B}{\sqrt{(A^{'} A) (B^{'} B)}} = \cos (2 ϕ)

$\frac{A^\prime B}{\sqrt{(A^\prime A)\, (B^\prime B)}} = \cos(2\phi)$

y, escribiendo , el coseno del ángulo entre las imágenes de y bajo la transformación es $\Sigma = M^\prime M$ $A$ $B$ $M$

\begin{matrix} (1) & \frac{(M A)^{'} (M B)}{\sqrt{((M A)^{'} (M A)) ((M B)^{'} (M B))}} = \frac{A^{'} Σ B}{\sqrt{(A^{'} Σ A) (B^{'} Σ B)}} . \end{matrix}

$\frac{(MA)^\prime (MB)}{\sqrt{((MA)^\prime (MA))\, ((MB)^\prime (MB))}} = \frac{A^\prime \Sigma B}{\sqrt{(A^\prime \Sigma A) (B^\prime \Sigma B)}}.\tag{1}$

Observe que solo importa en el análisis, $\Sigma$ no sí. Por lo tanto, podemos explotar la Descomposición de valor singular (SVD) de para simplificar el problema. Recuerde que esto expresa como un producto (de derecha a izquierda) de una matriz ortogonal , una matriz diagonal y otra matriz ortogonal : $M$ $M$ $M$ $V^\prime$ $D$ $U$

M = U D V^{'} .

$M = U\,D\,V^\prime.$

En otras palabras, existe una base de vectores privilegiados (las columnas de ) sobre los cuales actúa reescalando cada por separado mediante la entrada diagonal de (que llamaré ) y luego aplicando una rotación (o antirrotación) al resultado. Esa rotación final no cambiará ninguna longitud o ángulo y, por lo tanto, no debería afectar a . Puedes ver esto formalmente con el cálculo $e_1, \ldots, e_n$ $V$ $M$ $e_i$ $i^\text{th}$ $D$ $d_i$ $U$ $\Sigma$

Σ = M^{'} M = (U D V^{'})^{'} (U D V^{'}) = V D (U^{'} U) D V^{'} = V D^{2} V^{'} .

$\Sigma = M^\prime M = (U D V^\prime)^\prime (U D V^\prime) = V D (U^\prime U) D V^\prime = V D^2 V^\prime.$

En consecuencia, para estudiar podemos reemplazar libremente por cualquier otra matriz que produzca los mismos valores en . Al ordenar para que disminuya de tamaño (y suponiendo que no sea idénticamente cero), una buena elección de es $\Sigma$ $M$ $(1)$ $e_i$ $d_i$ $M$ $M$

M = \frac{1}{d_{1}} D V^{'} .

$M = \frac{1}{{d_1}} D V^\prime.$

Los elementos diagonales de son $(1/{d_1})D$

1 = d_{1} / d_{1} \geq λ_{2} = d_{2} / d_{1} \geq λ_{3} = d_{3} / d_{1} \geq \dots \geq λ_{n} = d_{n} / d_{1} \geq 0.

$1 = d_1/d_1 \ge \lambda_2 = d_2/{d_1} \ge \lambda_3 = d_3/{d_1} \ge \cdots \ge \lambda_n = d_n/{d_1} \ge 0.$

Específicamente, el efecto de (ya sea en su forma original o modificada) en todos los ángulos está completamente determinado por el hecho de que $M$

M e_{i} = λ_{i} e_{i} .

$M e_i = \lambda_i e_i.$

Análisis de un caso especial.

Deje . Debido a que cambiar las longitudes de los vectores no cambia el ángulo entre ellos, podemos suponer que y son vectores unitarios. En el plano, todos estos vectores pueden designarse por el ángulo que forman con , lo que nos permite escribir $n=2$ $A$ $B$ $e_1$

A = \cos (θ - ϕ) e_{1} + \sin (θ - ϕ) e_{2} .

$A = \cos(\theta-\phi)e_1 + \sin(\theta-\phi)e_2.$

Por lo tanto

B = \cos (θ + ϕ) e_{1} + \sin (θ + ϕ) e_{2} .

$B = \cos(\theta+\phi)e_1 + \sin(\theta+\phi)e_2.$

(Vea la figura a continuación).

Aplicar es simple: corrige las primeras coordenadas de y y multiplica sus segundas coordenadas por . Por lo tanto, el ángulo de a es $M$ $A$ $B$ $\lambda_2$ $MA$ $MB$

f (θ) = \arctan (λ_{2} \tan (θ + ϕ)) - \arctan (λ_{2} \tan (θ - ϕ)) .

$f(\theta) = \arctan(\lambda_2 \tan(\theta+\phi)) - \arctan(\lambda_2 \tan(\theta-\phi)).$

Como es una función continua, esta diferencia de ángulos es una función continua de . De hecho, es diferenciable. Esto nos permite encontrar los ángulos extremos inspeccionando los ceros de la derivada . Esa derivada es fácil de calcular: es una relación de funciones trigonométricas. Los ceros solo pueden aparecer entre los ceros de su numerador, así que no nos molestemos en calcular el denominador. Obtenemos $M$ $\theta$ $f^\prime(\theta)$

f^{'} (θ) = \frac{λ_{2} (1 - λ_{2}) (λ_{2} + 1) \sin (2 θ) \sin (2 ϕ)}{*} .

$f^\prime(\theta) = \frac{\lambda_2(1-\lambda_2)(\lambda_2+1)\sin(2\theta)\sin(2\phi)}{*}.$

Los casos especiales de , y se entienden fácilmente: corresponden a las situaciones en las que es de rango reducido (y así aplasta todos los vectores en una línea); donde es un múltiplo de la matriz de identidad; y donde y son paralelos (de donde el ángulo entre ellos no puede cambiar, independientemente de ). El caso está excluido por la condición . $\lambda_2=0$ $\lambda_2=1$ $\phi=0$ $M$ $M$ $A$ $B$ $\theta$ $\lambda_2=-1$ $\lambda_2 \ge 0$

Además de estos casos especiales, los ceros ocurren solo donde : es decir, o . Esto significa que la línea determinada por divide el ángulo . Ahora sabemos que los valores extremos del ángulo entre y deben estar entre los valores de , así que calculemos: $\sin(2\theta)=0$ $\theta=0$ $\theta=\pi/2$ $e_1$ $AB$ $MA$ $MB$ $f(\theta)$

\begin{aligned} f (0) & = \arctan (λ_{2} \tan (ϕ)) - \arctan (λ_{2} \tan (- ϕ)) = 2 \arctan (λ_{2} \tan (ϕ)); \\ f (π / 2) & = \arctan (λ_{2} \tan (π / 2 + ϕ)) - \arctan (λ_{2} \tan (π / 2 - ϕ)) = 2 \arctan (λ_{2} \cot (- ϕ)) . \end{aligned}

$\eqalign{ f(0) &= \arctan(\lambda_2 \tan(\phi)) - \arctan(\lambda_2 \tan(-\phi)) = 2\arctan(\lambda_2\tan(\phi)); \\ f(\pi/2) &= \arctan(\lambda_2 \tan(\pi/2+\phi)) - \arctan(\lambda_2 \tan(\pi/2-\phi)) = 2\arctan(\lambda_2\cot(-\phi)). }$

Los cosenos correspondientes son

\begin{matrix} (2) & \cos (f (0)) = \frac{1 - λ_{2}^{2} \tan (ϕ)^{2}}{1 + λ_{2}^{2} \tan (ϕ)^{2}} \end{matrix}

$\cos(f(0)) = \frac{1 - \lambda_2^2 \tan(\phi)^2}{1 + \lambda_2^2 \tan(\phi)^2}\tag{2}$

y

\begin{matrix} (3) & \cos (f (π / 2)) = \frac{1 - λ_{2}^{2} \cot (ϕ)^{2}}{1 + λ_{2}^{2} \cot (ϕ)^{2}} = \frac{\tan (ϕ)^{2} - λ_{2}^{2}}{\tan (ϕ)^{2} + λ_{2}^{2}} . \end{matrix}

$\cos(f(\pi/2)) = \frac{1 - \lambda_2^2 \cot(\phi)^2}{1 + \lambda_2^2 \cot(\phi)^2} = \frac{\tan(\phi)^2 - \lambda_2^2 }{\tan(\phi)^2 + \lambda_2^2}.\tag{3}$

A menudo es suficiente entender cómo distorsiona los ángulos rectos. En este caso, , lo que lleva a , que puede insertar en las fórmulas anteriores. $M$ $2\phi=\pi/2$ $\tan(\phi) = \cot(\phi) = 1$

Tenga en cuenta que cuanto menor sea , más extremos serán estos ángulos y mayor será la distorsión. $\lambda_2$

Esta figura muestra cuatro configuraciones de los vectores y separadas por un ángulo de . El círculo unitario y su imagen elíptica debajo de están sombreados como referencia (con la acción de reescalada uniformemente para hacer ). Las figura encabezamientos indican el valor de , el punto medio de y . Lo más parecido que puede llegar a ser y cuando se transforma por es una configuración como la de la izquierda con $A$ $B$ $2\phi = \pi/3$ $M$ $M$ $\lambda_1=1$ $\theta$ $A$ $B$ $A$ $B$ $M$ $\theta=0$ . Lo más alejado que pueden estar es una configuración como la de la derecha con . Se muestran dos posibilidades intermedias. $\theta=\pi/2$

Solución para todas las dimensiones.

Hemos visto cómo actúa expandiendo cada dimensión por un factor . Esto distorsionará la unidad de esfera en un elipsoide. El determina sus ejes principales. Los son las distancias desde el origen, a lo largo de estos ejes, al elipsoide. En consecuencia, el más pequeño, , es la distancia más corta (en cualquier dirección) desde el origen al elipsoide y el más grande, , es la distancia más lejana (en cualquier dirección) desde el origen al elipsoide. $M$ $i$ $\lambda_i$ $\{A\,|\, A^\prime A = 1\}$ $e_i$ $\lambda_i$ $\lambda_n$ $\lambda_1$

En dimensiones superiores , y son parte de un subespacio bidimensional. asigna el círculo unitario en este subespacio en la intersección del elipsoide con un plano que contiene y . Esta intersección, al ser una distorsión lineal de un círculo, es una elipse. Obviamente, la distancia más lejana a esta elipse no es más que y la distancia más corta no es menos que . $n\gt 2$ $A$ $B$ $M$ $MA$ $MB$ $\lambda_1=1$ $\lambda_n$

Como observamos al final de la sección anterior, la posibilidad más extrema es cuando y están situados en un plano que contiene dos de para los cuales la relación de correspondiente es lo más pequeña posible. Esto sucederá en el plano . Ya tenemos la solución para ese caso. $A$ $B$ $e_i$ $\lambda_i$ $e_1, e_n$

Conclusiones

Los extremos de similitud de coseno alcanzables aplicando a dos vectores que tienen similitud de coseno están dados por y . Se logran situando y en ángulos iguales a una dirección en la que alarga al máximo cualquier vector (como la dirección ) y separándolos en una dirección en la que alarga mínimamente cualquier vector ( como la dirección ). $M$ $\cos(2\phi)$ $(2)$ $(3)$ $A$ $B$ $\Sigma=M^\prime M$ $e_1$ $\Sigma$ $e_n$

Estos extremos se pueden calcular en términos de la SVD de . $M$

— whuber
fuente

¡Esta es una respuesta fantástica! ¡Muchas gracias por esta discusión detallada! Creo que tiene un error de signo en la ecuación (3) donde debería tener un signo menos general.

— LFH

Estoy interesado en el caso en que el ángulo aproxima a cero y me gustaría obtener una desigualdad entre y . ¿Es cierto que, en función de su cálculo, solo necesito encontrar el más extremo (que es el más pequeño) y en este caso, la desigualdad asintótica viene dada por como ?

2 ϕ

$2\phi$

2 ϕ

$2\phi$

f

$f$

λ_{n}

$\lambda_n$

2 λ_{n} ϕ \leq f \leq 2 λ_{n}^{- 1} ϕ

$2\lambda_n\phi\leq f\leq 2\lambda_n^{-1}\phi$

ϕ \to 0

$\phi\to0$

— LFH

6

Probablemente le interese:

(M A, M B) = A^{T} (M^{T} M) B,

$(MA,MB)=A^T(M^TM)B,$

Puede diagonalizar (o como lo llaman, PCA), lo que le dice que la similitud de bajo la transformación comporta proyectando en sus componentes principales, y posteriormente calculando similitud en este nuevo espacio. Para desarrollar esto un poco más, dejemos que los componentes principales sean con valores propios . Entonces $M^TM=U\Sigma U^T$ $A,B$ $M$ $A,B$ $u_i$ $\lambda_i$

U B = \sum_{i} (u_{i}, b_{i}) u_{i}, U A = \sum_{i} (u_{i}, a_{i}) u_{i},

$UB=\sum_i(u_i,b_i)u_i, \ UA=\sum_i(u_i,a_i)u_i,$

que te da:

(M A, M B) = \sum_{i = 1}^{n} (u_{i}, a_{i}) (u_{i}, b_{i}) λ_{i} .

$(MA,MB)=\sum_{i=1}^n (u_i,a_i)(u_i,b_i)\lambda_i.$

Observe que hay una escala aquí: los se . Cuando son vectores unitarios y si cada , entonces corresponde a una rotación, y obtienes: , que es equivalente a decir que los productos internos son invariantes bajo rotaciones. En general, el ángulo permanece igual cuando es una transformación conforme, que en este caso requiere que sea invertible y que la descomposición polar de satisfaga con , es decir, . $\lambda_i$ $A,B$ $\lambda_i=1$ $M$ $\mbox{sim}(MA,MB)=\mbox{sim}(A,B)$ $M$ $M$ $M$ $M=OP$ $P=aI$ $M^TM=a^2I$

— Alex R.
fuente

1

Su declaración inicial del problema descuida la normalización de los vectores , , y necesarios para calcular la similitud del coseno. Tampoco parece que el análisis posterior aborde esta normalización. Tenga en cuenta, en particular, que las similitudes del coseno se conservan incluso cuando todos los valores propios son iguales a algún valor (positivo) que difiere de . Eso demuestra, incluso en este caso simple, que se puede decir mucho más.

A

$A$

B

$B$

M A

$MA$

M B

$MB$

1

$1$

— whuber

@whuber: la similitud del coseno se conserva exactamente cuando es una transformación conforme, que en este caso es equivalente a requerir que sea invertible y , un múltiplo de la identidad. Dicho de otra manera, la descomposición polar de satisface , donde . Tienes razón en la normalización, pero, parece absurdo hablar de coseno similitud con vectores no normalizados .

M

$M$

M

$M$

M^{T} M = a^{2} I

$M^TM=a^2I$

M

$M$

M = O P

$M=OP$

P = a I

$P=aI$

A, B

$A,B$

— Alex R.

2

No es tonto en absoluto! Dado que esta "similitud" viene dada por el coseno del ángulo entre los vectores, tiene sentido para cualquiera de los dos vectores distintos de cero. Lo que quería decir con "mucho más se puede decir" es que los límites efectivos en el ángulo entre las imágenes de y se puede solicitar en términos del ángulo entre y y los valores propios de .

A

$A$

B

$B$

A

$A$

B

$B$

M

$M$

— whuber