Para documentos de texto, los vectores de características pueden ser de dimensiones muy altas y dispersos bajo cualquiera de las representaciones estándar (bolsa de palabras o TF-IDF, etc.). La medición de distancias directamente bajo tal representación puede no ser confiable ya que es un hecho conocido que en dimensiones muy altas, la distancia entre dos puntos cualquiera comienza a verse igual. Una forma de lidiar con esto es reducir la dimensionalidad de los datos mediante PCA o LSA ( Análisis semántico latente ; también conocido como indexación semántica latente ) y luego medir las distancias en el nuevo espacio. Usar algo como LSA sobre PCA es ventajoso, ya que puede proporcionar una representación significativa en términos de "conceptos semánticos", además de medir distancias en un espacio dimensional inferior.
La comparación de documentos basada en las distribuciones de probabilidad generalmente se realiza calculando primero la distribución de temas de cada documento (usando algo como Asignación de Dirichlet Latente ), y luego calculando algún tipo de divergencia (por ejemplo, divergencia KL) entre las distribuciones de temas de un par de documentos. En cierto modo, en realidad es algo similar a hacer LSA primero y luego medir distancias en el espacio LSA usando la divergencia KL entre los vectores (en lugar de la similitud del coseno).
La divergencia KL es una medida de distancia para comparar distribuciones, por lo que puede ser preferible si la representación del documento es en términos de alguna distribución (que a menudo es el caso, por ejemplo, documentos representados como distribución sobre temas, como en LDA). También tenga en cuenta que bajo tal representación, las entradas en el vector de características sumarían uno (ya que básicamente está tratando el documento como una distribución sobre temas o conceptos semánticos).
También vea un hilo relacionado aquí .