Me he encontrado con un escenario en el que tengo 10 señales / persona para 10 personas (es decir, 100 muestras) que contienen 14000 puntos de datos (dimensiones) que necesito pasar a un clasificador. Me gustaría reducir la dimensionalidad de estos datos y PCA parece ser la forma de hacerlo. Sin embargo, solo he podido encontrar ejemplos de PCA donde el número de muestras es mayor que el número de dimensiones. Estoy usando una aplicación PCA que encuentra las PC usando SVD. Cuando lo paso a mi conjunto de datos de 100x14000, hay 101 PC devueltas, por lo que la gran mayoría de las dimensiones obviamente se ignoran. El programa indica que las primeras 6 PC contienen 90% de la variación.
¿Es razonable suponer que estas 101 PC contienen esencialmente toda la variación y que las dimensiones restantes son despreciables?
Uno de los documentos que he leído afirma que, utilizando un conjunto de datos similar (aunque de calidad ligeramente inferior) que el mío, pudieron reducir 4500 dimensiones a 80 y retener el 96% de la información original. El documento muestra los detalles de la técnica de PCA utilizada, solo 3100 muestras estaban disponibles, y tengo razones para creer que se usaron menos muestras para realizar PCA (para eliminar el sesgo de la fase de clasificación).
¿Me estoy perdiendo algo o esta es realmente la forma en que se usa PCA con un conjunto de datos de alta dimensionalidad y bajo tamaño de muestra? Cualquier comentario sería muy apreciado.