Pregunta:
¿Existen pautas generales con respecto a las características de los datos de entrada que se pueden usar para decidir entre la aplicación de PCA versus LSA / LSI?
Breve resumen de PCA vs. LSA / LSI:
El análisis de componentes principales (PCA) y el análisis semántico latente (LSA) o la indexación semántica latente (LSI) son similares en el sentido de que todos se basan fundamentalmente en la aplicación de la descomposición del valor singular (SVD) a una matriz.
LSA y LSI son, por lo que puedo decir, lo mismo. LSA difiere de PCA no fundamentalmente, pero en términos de la forma en que las entradas de la matriz se procesan previamente antes de aplicar la SVD.
En LSA, el paso de preprocesamiento generalmente implica la normalización de una matriz de conteo donde las columnas corresponden a 'documentos' y las filas corresponden a algún tipo de palabra. Las entradas pueden considerarse como una especie de recuento (normalizado) de ocurrencia de palabras por documento.
En PCA, el paso de preprocesamiento implica calcular la matriz de covarianza a partir de la matriz original. La matriz original es conceptualmente más "general" en naturaleza que en el caso de LSA. Cuando se trata de PCA, generalmente se dice que las columnas se refieren a vectores de muestra genéricos y se dice que las filas se refieren a variables individuales que se están midiendo. La matriz de covarianza es, por definición, cuadrada y simétrica y, de hecho, no es necesario aplicar la SVD, porque la matriz de covarianza se puede descomponer mediante diagonalización. Notablemente, la matriz de PCA seguramente será más densa que la variante LSA / LSI: las entradas cero solo ocurrirán donde la covarianza entre las variables sea cero, es decir, donde las variables son independientes.
Finalmente, un punto más descriptivo que se hace con bastante frecuencia para distinguir los dos es que
LSA busca el mejor subespacio lineal en la norma Frobenius, mientras que PCA apunta al mejor subespacio lineal afín.
En cualquier caso, las diferencias y similitudes de estas técnicas se han debatido acaloradamente en varios foros a través de Internet, y claramente hay algunas diferencias sobresalientes, y claramente estas dos técnicas producirán resultados diferentes.
Por lo tanto, repito mi pregunta: ¿Existen pautas generales con respecto a las características de los datos de entrada que se pueden usar para decidir entre aplicar PCA versus LSA / LSI? Si tengo algo parecido a una matriz de documentos a término, ¿LSA / LSI siempre será la mejor opción? ¿Podría esperar obtener mejores resultados en algunos casos preparando el término / matriz de documentación para LSA / LSI y luego aplicando PCA al resultado, en lugar de aplicar la SVD directamente?