La reducción de la dimensionalidad no siempre pierde información. En algunos casos, es posible volver a representar los datos en espacios de dimensiones inferiores sin descartar ninguna información.
Suponga que tiene algunos datos donde cada valor medido está asociado con dos covariables ordenadas. Por ejemplo, suponga que midió la calidad de la señal (indicada por el color blanco = bueno, negro = malo) en una cuadrícula densa de posiciones x e y en relación con algún emisor. En ese caso, sus datos podrían parecerse a la gráfica de la izquierda [* 1]:QXy
Es, al menos superficialmente, un dato bidimensional: . Sin embargo, podríamos saber a priori (basado en la física subyacente) o suponer que depende solo de la distancia desde el origen: r = √Q ( x , y) . (Algunos análisis exploratorios también pueden llevarlo a esta conclusión si incluso el fenómeno subyacente no se comprende bien). Entonces podríamos reescribir nuestros datos comoQ(r) enlugar deQ(x,y), lo que reduciría efectivamente la dimensionalidad a una sola dimensión. Obviamente, esto solo es sin pérdidas si los datos son radialmente simétricos, pero esta es una suposición razonable para muchos fenómenos físicos.X2+ y2------√Q ( r )Q ( x , y)
Esta transformación no es lineal (¡hay una raíz cuadrada y dos cuadrados!), Por lo que es algo diferente del tipo de reducción de dimensionalidad realizada por PCA, pero creo que es un buen ejemplo de cómo a veces puede eliminar una dimensión sin perder ninguna información.Q ( x , y) → Q ( r )
Para otro ejemplo, suponga que realiza una descomposición de valores singulares en algunos datos (SVD es un primo cercano al análisis de componentes principales y, a menudo, las entrañas subyacentes). SVD toma su matriz de datos y factores en tres matrices de tal manera que M = U S V T . Las columnas de U y V son los vectores singulares izquierdo y derecho, respectivamente, que forman un conjunto de bases ortonormales para M . Los elementos diagonales de S (es decir, S i , i ) son valores singulares, que son efectivamente pesos en el conjunto de base i formado por las columnas correspondientes de U yMETROMETRO= USVTMETROSSyo , yo)yoU (el resto de S es ceros). Por sí solo, esto no le brinda ninguna reducción de dimensionalidad (de hecho, ahora hay 3matrices N x N en lugar de lamatriz N x N única con laque comenzó). Sin embargo, a veces algunos elementos diagonales de S son cero. Esto significa que las bases correspondientes en U y V no son necesarias para reconstruir M , por lo que pueden eliminarse. Por ejemplo, suponga que Q ( x , y )VSnortex Nnortex NSUVMETROQ ( x , y)la matriz anterior contiene 10,000 elementos (es decir, es 100x100). Cuando realizamos un SVD en él, encontramos que solo un par de vectores singulares tiene un valor distinto de cero [* 2], por lo que podemos representar de nuevo la matriz original como el producto de dos vectores de 100 elementos (200 coeficientes, pero en realidad puedes hacerlo un poco mejor [* 3]).
Para algunas aplicaciones, sabemos (o al menos suponemos) que la información útil es capturada por componentes principales con valores singulares altos (SVD) o cargas (PCA). En estos casos, podríamos descartar los vectores / bases / componentes principales singulares con cargas más pequeñas, incluso si no son cero, en la teoría de que estos contienen ruido molesto en lugar de una señal útil. Ocasionalmente he visto personas rechazar componentes específicos en función de su forma (por ejemplo, se asemeja a una fuente conocida de ruido aditivo) independientemente de la carga. No estoy seguro si consideraría esto una pérdida de información o no.
Hay algunos resultados claros sobre la optimización teórica de la información de PCA. Si su señal es gaussiana y está corrompida con ruido gaussiano aditivo, entonces PCA puede maximizar la información mutua entre la señal y su versión de dimensionalidad reducida (suponiendo que el ruido tenga una estructura de covarianza similar a la identidad).
Notas al pie:
- Este es un modelo cursi y totalmente no físico. ¡Lo siento!
- Debido a la imprecisión de coma flotante, algunos de estos valores no serán del todo cero.
- US