¿Cómo encontrar la varianza entre puntos multidimensionales?

Supongamos que tengo una matriz X que es n por p, es decir, tiene n observaciones, con cada observación en el espacio p-dimensional.

¿Cómo encuentro la varianza de estas n observaciones?

En el caso donde p = 1, solo necesito usar la fórmula de varianza regular. ¿Qué pasa con los casos donde p> 1?

variance

— statnub
fuente

Para una variable aleatoria -dimensional , tenemos la siguiente definición de la varianza: $p$ $X = {\left( {{X_1}, \ldots ,{X_p}} \right)^\intercal}$

V a r (X) = E [(X - E X) {(X - E X)}^{⊺}] = (\begin{matrix} V a r (X_{1}) & \dots & C o v (X_{1}, X_{p}) \\ ⋮ & ⋱ & ⋮ \\ C o v (X_{p}, X_{1}) & \dots & V a r (X_{p}) \end{matrix})

$Var\left( X \right) = E\left[ {\left( {X - EX} \right){{\left( {X - EX} \right)}^\intercal}} \right] = \left( {\begin{array}{*{20}{c}} {Var\left( {{X_1}} \right)}& \ldots &{Cov\left( {{X_1},{X_p}} \right)} \\ \vdots & \ddots & \vdots \\ {Cov\left( {{X_p},{X_1}} \right)}& \ldots &{Var\left( {{X_p}} \right)} \end{array}} \right)$

Es decir, la varianza de un vector aleatorio se define como la matriz que almacena todas las varianzas en la diagonal principal y las covarianzas entre los diferentes componentes en los otros elementos. La matriz de covarianza la muestra se calcularía luego conectando los análogos de muestra para las variables de población: $p \times p$

\frac{1}{n - 1} (\begin{matrix} \sum_{i = 1}^{n} {(X_{i 1} - {\bar{X}}_{\cdot 1})}^{2} & \dots & \sum_{i = 1}^{n} (X_{i 1} - {\bar{X}}_{\cdot 1}) (X_{i p} - {\bar{X}}_{\cdot p}) \\ ⋮ & ⋱ & ⋮ \\ \sum_{i = 1}^{n} (X_{i p} - {\bar{X}}_{\cdot p}) (X_{i 1} - {\bar{X}}_{\cdot 1}) & \dots & \sum_{i = 1}^{n} {(X_{i p} - {\bar{X}}_{\cdot p})}^{2} \end{matrix})

$\frac{1}{{n - 1}}\left( {\begin{array}{*{20}{c}} {\sum\limits_{i = 1}^n {{{\left( {{X_{i1}} - {{\bar X}_{\cdot1}}} \right)}^2}} }& \ldots &{\sum\limits_{i = 1}^n {\left( {{X_{i1}} - {{\bar X}_{\cdot1}}} \right)\left( {{X_{ip}} - {{\bar X}_{\cdot p}}} \right)} } \\ \vdots & \ddots & \vdots \\ {\sum\limits_{i = 1}^n {\left( {{X_{ip}} - {{\bar X}_{\cdot p}}} \right)\left( {{X_{i1}} - {{\bar X}_{\cdot 1}}} \right)} }& \ldots &{\sum\limits_{i = 1}^n {{{\left( {{X_{ip}} - {{\bar X}_{\cdot p}}} \right)}^2}} } \end{array}} \right)$ donde denota la ésima observación para la característica y la media muestral de

X_{i j}

${X_{ij}}$

i

$i$

j

$j$

{\bar{X}}_{\cdot j}

${{\bar X}_{ \cdot j}}$

j

$j$ th característica. En resumen, la varianza de un vector aleatorio se define como la matriz que contiene las varianzas y covarianzas individuales. Por lo tanto, es suficiente calcular las varianzas y covarianzas de muestra para todos los componentes del vector individualmente.

— Philipp Burckhardt
fuente