Estos términos aparecen en algunos libros sobre estadísticas multivariadas. Supongamos que tiene n
individuos por p
matriz de datos de características cuantitativas. Luego, puede trazar individuos como puntos en el espacio donde los ejes son las características. Ese será un diagrama de dispersión clásico, también conocido como diagrama de espacio variable . Decimos que la nube de individuos abarca el espacio definido por las características de los ejes.
También podría concebir el diagrama de dispersión con los puntos como variables y los ejes como individuos. Absolutamente como el anterior, solo al revés. Esa será la gráfica del espacio sujeto (o la gráfica del espacio de observación) con las variables que lo abarcan, los individuos que lo definen.
Tenga en cuenta que si (con tanta frecuencia) n>p
entonces, en el segundo caso, solo algunas p
dimensiones de las n
dimensiones no son redundantes; eso significa que puede y puede dibujar los p
puntos variables en el p
diagrama dimensional 1 . Además, por tradición, los puntos variables generalmente están conectados con el origen y, por lo tanto, aparecen como vectores (flechas). Utilizamos la representación del espacio de sujeto principalmente para mostrar relaciones entre variables, por lo tanto, soltamos los ejes-sujetos y representamos los puntos como flechas, por conveniencia.1
Si las entidades (columnas de la matriz de datos) se centraron antes de dibujar el gráfico del espacio sujeto, entonces los cosenos de los ángulos entre los vectores variables son iguales a sus correlaciones de Pearson, mientras que las longitudes de los vectores son iguales a las normas de las variables (suma de cuadrados de la raíz ) o desviaciones estándar (si se divide por df ).
El espacio variable y el espacio sujeto son dos caras de la misma moneda, son el mismo espacio analítico euclidiano, solo se presentan como espejos entre sí. Comparten las mismas propiedades, como los valores propios y los vectores propios distintos de cero. Por lo tanto, es posible graficar sujetos y variables uno al lado del otro como puntos en el espacio de los ejes principales (u otra base ortogonal) de ese espacio analítico; este gráfico conjunto se llama biplot . No sé exactamente qué significa el término "espacio de datos": si significa algo específico, entonces supongo que es ese espacio analítico común del que el espacio sujeto y el espacio variable son las dos hipóstasis.
Algunos enlaces locales:
1n=5
p=2