Tengo un par de preguntas rápidas sobre PCA:
- ¿El PCA supone que el conjunto de datos es gaussiano?
- ¿Qué sucede cuando aplico un PCA a datos inherentemente no lineales?
Dado un conjunto de datos, el proceso consiste primero en normalizar la media, establecer la varianza en 1, tomar un SVD, reducir el rango y finalmente asignar el conjunto de datos al nuevo espacio de rango reducido. En el nuevo espacio, cada dimensión corresponde a una "dirección" de máxima varianza.
- Pero, ¿la correlación de ese conjunto de datos en el nuevo espacio es siempre cero, o es solo cierto para los datos que son inherentemente gaussianos?
Supongamos que tengo dos conjuntos de datos, "A" y "B", donde "A" corresponde a puntos muestreados aleatoriamente tomados de un gaussiano, mientras que "B" corresponde a puntos muestreados aleatoriamente de otra distribución (por ejemplo, Poisson).
- ¿Cómo se compara la PCA (A) con la PCA (B)?
- Al observar los puntos en el nuevo espacio, ¿cómo determinaría que el PCA (A) corresponde a los puntos muestreados de un gaussiano, mientras que el PCA (B) corresponde a los puntos muestreados de un Poisson?
- ¿Es la correlación de los puntos en "A" 0?
- ¿La correlación de puntos en "B" también es 0?
- Más importante aún, ¿estoy haciendo la pregunta "correcta"?
- ¿Debo mirar la correlación, o hay otra métrica que debería considerar?