¿Cuáles son las diferencias entre el análisis semántico latente (LSA), la indexación semántica latente (LSI) y la descomposición de valores singulares (SVD)?

15

Estos términos se mezclan mucho, pero me gustaría saber cuáles cree que son las diferencias, si las hay.

Gracias

pca text-mining svd

— Neil McGuigan
fuente

12

LSA y LSI se usan principalmente como sinónimos, y la comunidad de recuperación de información generalmente se refiere a él como LSI. LSA / LSI utiliza SVD para descomponer la matriz de documentos de término A en una matriz de términos y conceptos U, una matriz de valores singulares S y una matriz de documentos de conceptos V en la forma: A = USV '. La página de wikipedia tiene una descripción detallada de la indexación semántica latente .

— ébano1
fuente

8

Notablemente, mientras que LSA y LSI usan SVD para hacer su magia, hay un método computacional y conceptualmente más simple llamado HAL (Hyperspace Analogue to Language) que se filtra a través del texto haciendo un seguimiento de los contextos anteriores y posteriores. Los vectores se extraen de estas matrices de coincidencia (a menudo ponderadas) y se seleccionan palabras específicas para indexar el espacio semántico. En muchos sentidos, se me da a entender que funciona tan bien como LSA sin requerir el paso matemático / conceptualmente complejo de SVD. Ver Lund & Burgess, 1996 para más detalles.

— russellpierce
fuente

44

... recapitulando el trabajo previo de Finch y Chater (1992, 1994), Schütze (1993) y otros. HAL, LSA y otros trabajos de la técnica anterior al generar una medida de similitud para las palabras al calcular su similitud contextual. (Esta es la similitud de 'segundo orden' de Shephard: la similitud de 'primer orden' es cuando la palabra a aparece cerca de la palabra b; la similitud de 'segundo orden' es que la palabra a aparece cerca del mismo tipo de palabras que la palabra b).

— conjugateprior

33

Comparación y contraste: para LSA, el contexto es el documento completo. Para HAL y otros, es una ventana de texto que rodea la palabra objetivo. LSA mide la distancia en un subespacio lineal extraído mediante SVD / PCA, y el otro trata las distancias en el espacio original de los recuentos de palabras circundantes.

— conjugateprior

6

NMF y SVD son algoritmos de factorización de matriz. Wikipedia tiene información relevante sobre NMF .

$A^*A=A A^*$

Los otros respondedores han cubierto LSI / LSA ...

— Emre
fuente

debería ser matriz de covarianza, ¿verdad? no la matriz de correlación.

— Rafael

Sí, a menos que centre sus variables primero.

— Emre

después de la normalización de las variables, se convierte en matriz de correlación?

— Rafael

La normalización se centra en la escala, así que eso es diferente.

— Emre