¿Cuáles son las diferencias entre el análisis semántico latente (LSA), la indexación semántica latente (LSI) y la descomposición de valores singulares (SVD)?


15

Estos términos se mezclan mucho, pero me gustaría saber cuáles cree que son las diferencias, si las hay.

Gracias

Respuestas:


12

LSA y LSI se usan principalmente como sinónimos, y la comunidad de recuperación de información generalmente se refiere a él como LSI. LSA / LSI utiliza SVD para descomponer la matriz de documentos de término A en una matriz de términos y conceptos U, una matriz de valores singulares S y una matriz de documentos de conceptos V en la forma: A = USV '. La página de wikipedia tiene una descripción detallada de la indexación semántica latente .


8

Notablemente, mientras que LSA y LSI usan SVD para hacer su magia, hay un método computacional y conceptualmente más simple llamado HAL (Hyperspace Analogue to Language) que se filtra a través del texto haciendo un seguimiento de los contextos anteriores y posteriores. Los vectores se extraen de estas matrices de coincidencia (a menudo ponderadas) y se seleccionan palabras específicas para indexar el espacio semántico. En muchos sentidos, se me da a entender que funciona tan bien como LSA sin requerir el paso matemático / conceptualmente complejo de SVD. Ver Lund & Burgess, 1996 para más detalles.


44
... recapitulando el trabajo previo de Finch y Chater (1992, 1994), Schütze (1993) y otros. HAL, LSA y otros trabajos de la técnica anterior al generar una medida de similitud para las palabras al calcular su similitud contextual. (Esta es la similitud de 'segundo orden' de Shephard: la similitud de 'primer orden' es cuando la palabra a aparece cerca de la palabra b; la similitud de 'segundo orden' es que la palabra a aparece cerca del mismo tipo de palabras que la palabra b).
conjugateprior

33
Comparación y contraste: para LSA, el contexto es el documento completo. Para HAL y otros, es una ventana de texto que rodea la palabra objetivo. LSA mide la distancia en un subespacio lineal extraído mediante SVD / PCA, y el otro trata las distancias en el espacio original de los recuentos de palabras circundantes.
conjugateprior

6

NMF y SVD son algoritmos de factorización de matriz. Wikipedia tiene información relevante sobre NMF .

UNUN=UNUN

Los otros respondedores han cubierto LSI / LSA ...


debería ser matriz de covarianza, ¿verdad? no la matriz de correlación.
Rafael

Sí, a menos que centre sus variables primero.
Emre

después de la normalización de las variables, se convierte en matriz de correlación?
Rafael

La normalización se centra en la escala, así que eso es diferente.
Emre
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.