Espacio de datos, espacio variable, espacio de observación, espacio modelo (por ejemplo, en regresión lineal)

Supongamos que tenemos la matriz de datos , que es -by- , y el vector de etiqueta , que es -by-one. Aquí, cada fila de la matriz es una observación, y cada columna corresponde a una dimensión / variable. (suponga ) $\mathbf{X}$ $n$ $p$ $Y$ $n$ $n>p$

Entonces, ¿qué data space, variable space, observation space, model spacequiere decir?

¿Es el espacio abarcado por el vector columna, un espacio -D (degenerado) ya que tiene coordenadas mientras es rango , llamado espacio variable ya que está abarcado por el vector variable? ¿O se llama espacio de observación ya que cada dimensión / coordenada corresponde a una observación? $n$ $n$ $p$

¿Y qué hay del espacio atravesado por los vectores de fila?

— usuario3813057
fuente

Estos no son términos universalmente conocidos. Tiene una referencia? De lo contrario, podríamos estar adivinando qué significan.

— whuber

No tengo una referencia. Una vez escuché a mi profesor decirlo hace algún tiempo.

— user3813057

Estoy bastante seguro, entonces, que su profesor definió estos términos en algún momento. Quizás estén en tus apuntes de clase ...

— whuber

Estos términos aparecen en algunos libros sobre estadísticas multivariadas. Supongamos que tiene nindividuos por pmatriz de datos de características cuantitativas. Luego, puede trazar individuos como puntos en el espacio donde los ejes son las características. Ese será un diagrama de dispersión clásico, también conocido como diagrama de espacio variable . Decimos que la nube de individuos abarca el espacio definido por las características de los ejes.

También podría concebir el diagrama de dispersión con los puntos como variables y los ejes como individuos. Absolutamente como el anterior, solo al revés. Esa será la gráfica del espacio sujeto (o la gráfica del espacio de observación) con las variables que lo abarcan, los individuos que lo definen.

Tenga en cuenta que si (con tanta frecuencia) n>pentonces, en el segundo caso, solo algunas pdimensiones de las ndimensiones no son redundantes; eso significa que puede y puede dibujar los ppuntos variables en el pdiagrama dimensional . Además, por tradición, los puntos variables generalmente están conectados con el origen y, por lo tanto, aparecen como vectores (flechas). Utilizamos la representación del espacio de sujeto principalmente para mostrar relaciones entre variables, por lo tanto, soltamos los ejes-sujetos y representamos los puntos como flechas, por conveniencia. $^1$

Si las entidades (columnas de la matriz de datos) se centraron antes de dibujar el gráfico del espacio sujeto, entonces los cosenos de los ángulos entre los vectores variables son iguales a sus correlaciones de Pearson, mientras que las longitudes de los vectores son iguales a las normas de las variables (suma de cuadrados de la raíz ) o desviaciones estándar (si se divide por df ).

El espacio variable y el espacio sujeto son dos caras de la misma moneda, son el mismo espacio analítico euclidiano, solo se presentan como espejos entre sí. Comparten las mismas propiedades, como los valores propios y los vectores propios distintos de cero. Por lo tanto, es posible graficar sujetos y variables uno al lado del otro como puntos en el espacio de los ejes principales (u otra base ortogonal) de ese espacio analítico; este gráfico conjunto se llama biplot . No sé exactamente qué significa el término "espacio de datos": si significa algo específico, entonces supongo que es ese espacio analítico común del que el espacio sujeto y el espacio variable son las dos hipóstasis.

Algunos enlaces locales:

Imágenes que muestran la representación del espacio sujeto de componentes principales (PCA), regresión lineal y análisis factorial , nuevamente regresión . Compare eso con la representación tradicional de espacio variable (diagrama de dispersión) de regresión y PCA .
Explicación teórica del biplot . Un estudio individual que explica la estructura de biplot en PCA .
Vea también una publicación que trata de averiguar si uno puede resolver geométricamente la tarea de PCA en el diagrama del espacio sujeto (parece que las PC definen la elipse; pero ¿cómo encontrar esa elipse única?).

$^1$ n=5p=2

— ttnphns
fuente

+1. Pero no estoy seguro de cuál es el significado matemático exacto de decir que la variable y el espacio sujeto son "el mismo espacio analítico euclidiano".

— ameba

@amoeba, sin ser matemático en la respuesta, esperaba que fuera intuitivamente transparente (especialmente para expertos en álgebra lineal como usted). Por ejemplo, en la descomposición de valores singulares de la matriz de datos (svd, en qué biplot se basa), ¿qué espacio caracterizan los valores propios y los vectores propios izquierdo y derecho? ¿No es el mismo espacio analítico, que podría presentarse de varias maneras, entre las que se encuentran (i) filas y columnas como puntos por ejes principales como ejes; (ii) filas como puntos por columnas como ejes; (iii) columnas como puntos por filas como ejes?

— ttnphns