A expensas de la simplificación excesiva, las características latentes son características 'ocultas' para distinguirlas de las características observadas. Las características latentes se calculan a partir de las características observadas utilizando la factorización matricial. Un ejemplo sería el análisis de documentos de texto. Las "palabras" extraídas de los documentos son características. Si factoriza los datos de las palabras, puede encontrar 'temas', donde 'tema' es un grupo de palabras con relevancia semántica. La factorización de matriz de bajo rango asigna varias filas (características observadas) a un conjunto más pequeño de filas (características latentes). Para elaborar, el documento podría haber observado características (palabras) como [velero, goleta, yate, barco de vapor, crucero] que 'factorizarían' a características latentes (tema) como 'barco' y 'barco'.
[velero, goleta, yate, barco de vapor, crucero, ...] -> [barco, barco]
La idea subyacente es que las características latentes son 'agregados' semánticamente relevantes de las características observadas. Cuando tiene características observadas a gran escala, de alta dimensión y ruidosas, tiene sentido construir su clasificador sobre características latentes.
Por supuesto, esta es una descripción simplificada para dilucidar el concepto. Puede leer los detalles sobre la asignación de Dirichlet latente (LDA) o los modelos probabilísticos de análisis semántico latente (pLSA) para obtener una descripción precisa.