Debido a que es bastante general, y el cambio en la similitud del coseno depende de y particulares y su relación con , no es posible una fórmula definida. Sin embargo, existen límites prácticamente calculables de cuánto puede cambiar la similitud del coseno . Se pueden encontrar extremizando el ángulo entre y dado que la similitud del coseno entre y es un valor especificado, digamos (donde es el ángulo entre y ). La respuesta nos dice cuánto cualquier ánguloA B M M A M B A B cos ( 2 ϕ ) 2 ϕ A B 2 ϕ MMABMMAMBABcos(2ϕ)2ϕAB2ϕposiblemente se puede doblar por la transformación .M
Los cálculos amenazan con ser desordenados. Algunas opciones inteligentes de notación, junto con algunas simplificaciones preliminares, reducen el esfuerzo. Resulta que la solución en dos dimensiones revela todo lo que necesitamos saber. Este es un problema manejable, que depende solo de una variable real , que se resuelve fácilmente utilizando técnicas de cálculo. Un argumento geométrico simple extiende esta solución a cualquier cantidad de dimensiones .nθn
Preliminares matemáticos
Por definición, el coseno del ángulo entre dos vectores y se obtiene normalizándolos a la unidad de longitud y tomando su producto. Así,BAB
A′B(A′A)(B′B)−−−−−−−−−−√=cos(2ϕ)
y, escribiendo , el coseno del ángulo entre las imágenes de y bajo la transformación esA B MΣ=M′MABM
( MA )′( MB )( ( MA )′( MA ) )( ( MB )′( MB ) )-----------------------√= A′Σ B( A′Σ A ) ( B′Σ B )------------√.(1)
Observe que solo importa en el análisis,Σ no sí. Por lo tanto, podemos explotar la Descomposición de valor singular (SVD) de para simplificar el problema. Recuerde que esto expresa como un producto (de derecha a izquierda) de una matriz ortogonal , una matriz diagonal y otra matriz ortogonal :M M V ′ D UMETROMETROMETROV′reU
METRO= UreV′.
En otras palabras, existe una base de vectores privilegiados (las columnas de ) sobre los cuales actúa reescalando cada por separado mediante la entrada diagonal de (que llamaré ) y luego aplicando una rotación (o antirrotación) al resultado. Esa rotación final no cambiará ninguna longitud o ángulo y, por lo tanto, no debería afectar a . Puedes ver esto formalmente con el cálculo V M e i i th D d i U Σmi1, ... , enorteVMETROmiyoyothrereyoUΣ
Σ = M′METRO= ( UD V′)′(UDV′)=VD(U′U)DV′=VD2V′.
En consecuencia, para estudiar podemos reemplazar libremente por cualquier otra matriz que produzca los mismos valores en . Al ordenar para que disminuya de tamaño (y suponiendo que no sea idénticamente cero), una buena elección de esM ( 1 ) e i d i M MΣMETRO( 1 )miyoreyoMETROMETRO
METRO= 1re1D V′.
Los elementos diagonales de son( 1 / d1) D
1 = d1/ d1≥ λ2= d2/ d1≥ λ3= d3/ d1≥ ⋯ ≥ λnorte= dnorte/ d1≥ 0.
Específicamente, el efecto de (ya sea en su forma original o modificada) en todos los ángulos está completamente determinado por el hecho de queMETRO
METROmiyo= λyomiyo.
Análisis de un caso especial.
Deje . Debido a que cambiar las longitudes de los vectores no cambia el ángulo entre ellos, podemos suponer que y son vectores unitarios. En el plano, todos estos vectores pueden designarse por el ángulo que forman con , lo que nos permite escribirA B e 1n = 2UNAsimi1
A = cos( θ - ϕ ) e1+ pecado( θ - ϕ ) e2.
Por lo tanto
B =cos(θ+ϕ)e1+sin(θ+ϕ)e2.
(Vea la figura a continuación).
Aplicar es simple: corrige las primeras coordenadas de y y multiplica sus segundas coordenadas por . Por lo tanto, el ángulo de a esA B λ 2 M A M BMABλ2MAMB
f(θ)=arctan(λ2tan(θ+ϕ))−arctan(λ2tan(θ−ϕ)).
Como es una función continua, esta diferencia de ángulos es una función continua de . De hecho, es diferenciable. Esto nos permite encontrar los ángulos extremos inspeccionando los ceros de la derivada . Esa derivada es fácil de calcular: es una relación de funciones trigonométricas. Los ceros solo pueden aparecer entre los ceros de su numerador, así que no nos molestemos en calcular el denominador. Obtenemosθ f ′ ( θ )Mθf′(θ)
f′(θ)=λ2(1−λ2)(λ2+1)sin(2θ)sin(2ϕ)∗.
Los casos especiales de , y se entienden fácilmente: corresponden a las situaciones en las que es de rango reducido (y así aplasta todos los vectores en una línea); donde es un múltiplo de la matriz de identidad; y donde y son paralelos (de donde el ángulo entre ellos no puede cambiar, independientemente de ). El caso está excluido por la condición .λ 2 = 1λ2=0λ2=1M M A B θ λ 2 = - 1 λ 2 ≥ 0ϕ=0MMABθλ2=−1λ2≥0
Además de estos casos especiales, los ceros ocurren solo donde : es decir, o . Esto significa que la línea determinada por divide el ángulo . Ahora sabemos que los valores extremos del ángulo entre y deben estar entre los valores de , así que calculemos:sin(2θ)=0θ = π / 2 e 1 A B M A M B f ( θ )θ=0θ=π/2e1ABMAMBf(θ)
f(0)f(π/2)=arctan(λ2tan(ϕ))−arctan(λ2tan(−ϕ))=2arctan(λ2tan(ϕ));=arctan(λ2tan(π/2+ϕ))−arctan(λ2tan(π/2−ϕ))=2arctan(λ2cot(−ϕ)).
Los cosenos correspondientes son
cos(f(0))=1−λ22tan(ϕ)21+λ22tan(ϕ)2(2)
y
cos(f(π/2))=1−λ22cot(ϕ)21+λ22cot(ϕ)2=tan(ϕ)2−λ22tan(ϕ)2+λ22.(3)
A menudo es suficiente entender cómo distorsiona los ángulos rectos. En este caso, , lo que lleva a , que puede insertar en las fórmulas anteriores.2 ϕ = π / 2 tan ( ϕ ) = cot ( ϕ ) = 1METRO2 ϕ=π/ 2tan( ϕ )=cot( ϕ ) = 1
Tenga en cuenta que cuanto menor sea , más extremos serán estos ángulos y mayor será la distorsión.λ2
Esta figura muestra cuatro configuraciones de los vectores y separadas por un ángulo de . El círculo unitario y su imagen elíptica debajo de están sombreados como referencia (con la acción de reescalada uniformemente para hacer ). Las figura encabezamientos indican el valor de , el punto medio de y . Lo más parecido que puede llegar a ser y cuando se transforma por es una configuración como la de la izquierda conB 2 ϕ = π / 3 M M λ 1 = 1 θUNAsi2 ϕ=π/ 3METROMETROλ1= 1θB A B M θ = 0 θ = π / 2UNAsiUNAsiMETROθ=0. Lo más alejado que pueden estar es una configuración como la de la derecha con . Se muestran dos posibilidades intermedias.θ=π/2
Solución para todas las dimensiones.
Hemos visto cómo actúa expandiendo cada dimensión por un factor . Esto distorsionará la unidad de esfera en un elipsoide. El determina sus ejes principales. Los son las distancias desde el origen, a lo largo de estos ejes, al elipsoide. En consecuencia, el más pequeño, , es la distancia más corta (en cualquier dirección) desde el origen al elipsoide y el más grande, , es la distancia más lejana (en cualquier dirección) desde el origen al elipsoide.i λ i {Miλie i λ i λ n λ 1{A|A′A=1}eiλiλnλ1
En dimensiones superiores , y son parte de un subespacio bidimensional. asigna el círculo unitario en este subespacio en la intersección del elipsoide con un plano que contiene y . Esta intersección, al ser una distorsión lineal de un círculo, es una elipse. Obviamente, la distancia más lejana a esta elipse no es más que y la distancia más corta no es menos que .n>2B M M A M B λ 1 = 1 λ nABMMAMBλ1=1λn
Como observamos al final de la sección anterior, la posibilidad más extrema es cuando y están situados en un plano que contiene dos de para los cuales la relación de correspondiente es lo más pequeña posible. Esto sucederá en el plano . Ya tenemos la solución para ese caso.B e i λ i e 1 , e nABeiλie1,en
Conclusiones
Los extremos de similitud de coseno alcanzables aplicando a dos vectores que tienen similitud de coseno están dados por y . Se logran situando y en ángulos iguales a una dirección en la que alarga al máximo cualquier vector (como la dirección ) y separándolos en una dirección en la que alarga mínimamente cualquier vector ( como la dirección ).cos ( 2 ϕM( 2 ) ( 3 )cos(2ϕ)(2)(3)B Σ = M ′ M e 1 Σ e nABΣ=M′Me1Σen
Estos extremos se pueden calcular en términos de la SVD de .M