Considere cómo se calcula la similitud de coseno .
La similitud de coseno toma el producto escalar de dos vectores reales y divide este valor por el producto de sus magnitudes. Por la identidad del producto de punto euclidiano, esto es igual al coseno del ángulo entre los dos vectores. El resultado de esto es un valor entre 1 y -1.
Cuando el valor es 1, esos vectores apuntan exactamente en la misma dirección. Cuando el valor es -1, los vectores apuntan exactamente en la dirección opuesta (uno es la negación del otro). Cuando el valor es 0, los vectores son perpendiculares entre sí; en otras palabras, cuando el valor es cero, estos dos vectores son tan diferentes en el espacio de características como es posible obtener.
El producto punto es la suma de todos los productos de sus dos vectores basados en elementos. Cuanto más grandes son esos números, más contribuyen a la similitud del coseno.
Ahora, tome cualquier característica en su vector. El quinto, digamos. Si establece esto en cero en uno de sus vectores, el quinto elemento en el producto de los dos vectores también será cero, independientemente de su valor en el otro vector. Cuando resume todos estos productos basados en elementos, el quinto elemento no tendrá ningún impacto en la suma. Como resultado, establecer un valor en su vector de características a cero significa que no hace ninguna contribución a la similitud del coseno.
Esta es la razón por la que establecer un valor en cero en un vector de características es equivalente a no incluir la característica en el cálculo de la similitud del coseno, y no distorsiona la similitud del coseno.