Un paralelo entre LSA y pLSA

En el documento original de pLSA, el autor, Thomas Hoffman, establece un paralelismo entre las estructuras de datos de pLSA y LSA que me gustaría discutir con usted.

Antecedentes:

Inspirándose en la recuperación de información, supongamos que tenemos una colección de documentos y un vocabulario de términos $N$

D = {d_{1}, d_{2}, . . . ., d_{N}}

$D = \lbrace d_1, d_2, ...., d_N \rbrace$

M

$M$

Ω = {ω_{1}, ω_{2}, . . ., ω_{M}}

$\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace$

Un corpus puede ser representado por una matriz de cooccurencias $X$ $N \times M$

En el análisis semántico latente por SVD, la matriz se factoriza en tres matrices: donde y son los valores singulares de y es el rango de . $X$

X = U Σ V^{T}

$X = U \Sigma V^T$

Σ = d i a g {σ_{1}, . . ., σ_{s}}

$\Sigma = diag \lbrace \sigma_1, ..., \sigma_s \rbrace$

σ_{i}

$\sigma_i$

X

$X$

s

$s$

X

$X$

La aproximación LSA de se calcula truncando las tres matrices a algún nivel , como se muestra en la imagen: $X$

\hat{X} = \hat{U} \hat{Σ} \hat{V^{T}}

$\hat{X} = \hat{U}\hat{\Sigma}\hat{V^T}$

k < s

$k < s$

ingrese la descripción de la imagen aquí

En pLSA, elija un conjunto fijo de temas (variables latentes) la aproximación de se calcula como: donde las tres matrices son las que maximizan la probabilidad del modelo. $Z = \lbrace z_1, z_2, ..., z_Z \rbrace$ $X$

X = [P (d_{i} | z_{k})] \times [d i a g (P (z_{k})] \times [P (f_{j} | z_{k})]^{T}

$X = [P(d_i | z_k)] \times [diag(P(z_k)] \times [P(f_j|z_k)]^T$

Pregunta real:

El autor afirma que estas relaciones subsisten:

$U = [P(d_i | z_k)]$
$\hat{\Sigma} = [diag(P(z_k)]$
$V = [P(f_j|z_k)]$

y que la diferencia crucial entre LSA y pLSA es la función objetivo utilizada para determinar la descomposición / aproximación óptima.

No estoy seguro de que tenga razón, ya que creo que las dos matrices representan conceptos diferentes: en LSA es una aproximación del número de veces que aparece un término en un documento, y en pLSA es el (estimado ) probabilidad de que aparezca un término en el documento. $\hat{X}$

¿Me pueden ayudar a aclarar este punto?

Además, supongamos que hemos calculado los dos modelos en un corpus, dado un nuevo documento , en LSA que uso para calcular su aproximación como: $d^*$

\hat{d^{*}} = d^{*} \times V \times V^{T}

$\hat{d^*} = d^*\times V \times V^T$

¿Es esto siempre válido?
¿Por qué no obtengo resultados significativos aplicando el mismo procedimiento a pLSA? $\hat{d^{*}} = d^{*} \times [P (f_{j} | z_{k})] \times [P (f_{j} | z_{k})]^{T}$ $\hat{d^*} = d^*\times [P(f_j|z_k)] \times [P(f_j|z_k)]^T$

Gracias.

— Aslan986
fuente

Para simplificar, estoy dando aquí la conexión entre LSA y la factorización de matriz no negativa (NMF), y luego muestro cómo una simple modificación de la función de costo conduce a pLSA. Como se indicó anteriormente, LSA y pLSA son métodos de factorización en el sentido de que, hasta la normalización de las filas y columnas, la descomposición de bajo rango de la matriz de términos del documento:

X = U Σ D

$X=U\Sigma D$

usando anotaciones anteriores. Más simplemente, el término matriz del documento se puede escribir como un producto de dos matrices:

X = A B^{T}

$X = AB^T$

donde y . Para LSA, la correspondencia con la fórmula anterior se obtiene estableciendo y . $A\in\Re^{N\times s}$ $B\in\Re^{M\times s}$ $A=U \sqrt{\Sigma}$ $B=V\sqrt{\Sigma}$

Una manera fácil de entender la diferencia entre LSA y NMF es usar su interpretación geométrica:

LSA es la solución de:
$min_{A, B} ‖ X - A B^{T} ‖_{F}^{2},$ $\min_{A,B} \|X - AB^T \|_F^2,$
NMF- es la solución de: $L_2$
$min_{A \geq 0, B \geq 0} ‖ X - A B^{T} ‖_{F}^{2},$ $\min_{A\ge 0,B\ge 0} \|X - AB^T \|_F^2,$
NMF-KL es equivalente a pLSA y es la solución de:
$min_{A \geq 0, B \geq 0} K L (X | | A B^{T}) .$ $\min_{A\ge 0,B\ge 0} KL(X|| AB^T).$

donde es la Kullback-Leibler divergencia entre matrices e . Es fácil ver que todos los problemas anteriores no tienen una solución única, ya que uno puede multiplicar por un número positivo y dividir $KL(X||Y) = \sum_{ij} x_{ij}\log{\frac{x_{ij}}{y_{ij}}}$ $X$ $Y$ $A$ $B$ por el mismo número para obtener el mismo valor objetivo. Por lo tanto, en el caso de LSA, las personas generalmente eligen una base ortogonal ordenada por valores propios decrecientes. Esto viene dado por la descomposición SVD e identifica la solución LSA, pero cualquier otra opción sería posible ya que no tiene impacto en la mayoría de las operaciones (similitud de coseno, fórmula de suavizado mencionada anteriormente, etc.). - en el caso de NMF, no es posible una descomposición ortogonal, pero las filas de generalmente están limitadas a sumarse a una, porque tiene una interpretación probabilística directa como . Si además, las filas de están normalizadas (es decir, suma a una), entonces las filas de tienen que sumar a una, lo que lleva a la interpretación probabilística $A$ $p(z_k|d_i)$ $X$ $B$ $p(f_j|z_k)$ . Hay una ligera diferencia con la versión de pLSA dada en la pregunta anterior porque las columnas de están obligadas a sumar una, de modo que los valores en son , pero la diferencia es solo un cambio de parametrización , el problema sigue siendo el mismo. $A$ $A$ $p(d_i|z_k)$

Ahora, para responder la pregunta inicial, hay algo sutil en la diferencia entre LSA y pLSA (y otros algoritmos NMF): las restricciones de no negatividad inducen un "efecto de agrupamiento" que no es válido en el caso clásico de LSA porque el valor singular La solución de descomposición es rotacionalmente invariante. Las restricciones de no negatividad de alguna manera rompen esta invariancia rotacional y dan factores con algún tipo de significado semántico (temas en el análisis de texto). El primer artículo para explicarlo es:

Donoho, David L. y Victoria C. Stodden. "¿Cuándo la factorización de matriz no negativa da una descomposición correcta en partes?" Avances en los sistemas de procesamiento de información neuronal 16: actas de la conferencia de 2003. MIT Press, 2004. [enlace]

De lo contrario, la relación entre PLSA y NMF se describe aquí:

Ding, Chris, Tao Li y Wei Peng. "Sobre la equivalencia entre la factorización matricial no negativa y la indexación semántica latente probabilística". Estadística computacional y análisis de datos 52.8 (2008): 3913-3927. [enlace]

— Guillaume
fuente