En la factorización de NMF, el parámetro (observado en r en la mayoría de la literatura) es el rango de la aproximación de V y se elige de tal manera que k < min ( m , n ) . La elección del parámetro determina la representación de sus datos V en una base demasiado completa compuesta por las columnas de W ; el w i , i = 1 , 2 , ⋯ , k . El resultado es que los rangos de las matrices W y H tienen un límite superior dekrVk<min(m,n)VWwi , i=1,2,⋯,kWH y el producto W H es una aproximación de bajo rango de V ; También k a lo sumo. Por lo tanto, la elección de k < min ( m , n ) debería constituir una reducción de dimensionalidad en la que V puede generarse / extenderse a partir de los vectores de base mencionados anteriormente.kWHVkk<min(m,n)V
Se pueden encontrar más detalles en el capítulo 6 de este libro de S. Theodoridis y K. Koutroumbas.
Después de minimizar la función de costo elegida con respecto a y H , la elección óptima de k ( elegida empíricamente al trabajar con diferentes subespacios de características) debería dar V ∗ , una aproximación de V , con características representativas de su matriz de datos inicial V . WHkV∗VV
Trabajar con diferentes subespacios de características en el sentido de que, el número de columnas en W , es el número de vectores base en el subespacio NMF. Y trabajar empíricamente con diferentes valores de k es equivalente a trabajar con diferentes espacios de características con dimensiones reducidas.kWk