¿Por qué el denominador del estimador de covarianza no debería ser n-2 en lugar de n-1?

36

El denominador del estimador de varianza (imparcial) es ya que hay observaciones y solo se está estimando un parámetro. $n-1$ $n$

V (X) = \frac{\sum_{i = 1}^{n} {(X_{i} - \bar{X})}^{2}}{n - 1}

$\mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1}$

Por la misma razón, me pregunto por qué el denominador de covarianza no debería ser cuando se estiman dos parámetros. $n-2$

C o v (X, Y) = \frac{\sum_{i = 1}^{n} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{n - 1}

$\mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}$

— MYaseen208
fuente

15

Si hiciera eso, tendría dos definiciones en conflicto para la varianza: uno sería la primera fórmula y el otro sería la segunda fórmula aplica con .

Y = X

$Y=X$

— whuber

3

Una media bi / multivariada (expectativa) es uno, no 2 parámetros.

— ttnphns

14

@ttnphns Eso no es cierto: la media bivariada es obviamente dos parámetros porque requiere dos números reales para expresarla. (De hecho, es un parámetro vectorial único , pero decirlo solo disfraza el hecho de que tiene dos componentes). Esto se muestra explícitamente en los grados de libertad para las pruebas t de varianza agrupada, por ejemplo, donde se resta , no . Lo interesante de esta pregunta es cómo revela cuán vaga, poco rigurosa y potencialmente engañosa es la "explicación" común de que restamos de porque se ha estimado un parámetro.

2

$2$

1

$1$

1

$1$

n

$n$

— whuber

@whuber, tienes razón en eso. Si fuera solo (observaciones independientes) lo que importa, no gastaríamos más df en pruebas multivariadas que en pruebas univariadas.

n

$n$

— ttnphns

3

@whuber: Quizás diría que muestra que lo que cuenta como "un parámetro" depende de la situación. En este caso, la varianza se calcula sobre observaciones $n$ y, por lo tanto, cada observación, o la media total, puede verse como un parámetro, incluso si se trata de una media multivariada, como dijo ttnphns. Sin embargo, en otros casos cuando, por ejemplo, una prueba considera combinaciones lineales de dimensiones, cada dimensión de cada observación se convierte en "un parámetro". Tienes razón en que este es un tema complicado.

— ameba dice Reinstate Monica

31

Las covarianzas son variaciones.

Ya que por la identidad de polarización

Cov (X, Y) = Var (\frac{X + Y}{2}) - Var (\frac{X - Y}{2}),

$\newcommand{\c}{\text{Cov}}\newcommand{\v}{\text{Var}} \c(X,Y) = \v\left(\frac{X+Y}{2}\right) - \v\left(\frac{X-Y}{2}\right),$

Los denominadores deben ser iguales.

— whuber
fuente

20

Un caso especial debería darte una intuición; piensa en lo siguiente:

\hat{C o v} (X, X) = \hat{V} (X)

$\hat{\mathbb{Cov}}\left(X, X\right)= \hat{\mathbb{V}}\left(X\right)$

Está contento de que este último sea debido a Corrección de Bessel. $\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1}$

Pero reemplazar por en por el primero da , entonces, ¿qué crees que podría llenar mejor el espacio en blanco? $Y$ $X$ $\hat{\mathbb{Cov}}\left(X, Y\right)$ $\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(X_{i}-\overline{X}\right)}{\text{mystery denominator}}$

— Lepisma
fuente

1

OKAY. Pero el OP podría preguntar "¿por qué considerar cov (X, X) y cov (X, Y) en una línea lógica? ¿Por qué reemplaza Y por X en cov () con frialdad? Quizás cov (X, Y) es una situación diferente? No evitaste eso, mientras que la respuesta (altamente votada) debería tener, en mi impresión :-)

— ttnphns

7

Una respuesta rápida y sucia ... Consideremos primero ; si tuviera observaciones con el valor esperado conocido , usaría para estimar la varianza. $\text{var}(X)$ $n$ $E(X) = 0$ ${1\over n}\sum_{i=1}^n X_i^2$

Al ser desconocido el valor esperado, puede transformar sus observaciones en observaciones con el valor esperado conocido tomando para . Obtendrá una fórmula con un en el denominador; sin embargo, los no son independientes y deberá tener esto en cuenta; al final encontrarás la fórmula habitual. $n$ $n-1$ $A_i = X_i - X_1$ $i = 2, \dots,n$ $n-1$ $A_i$

Ahora, para la covarianza, puede usar la misma idea: si el valor esperado de fuera , tendría un en la fórmula. Al restar a todos los demás valores observados, obtiene observaciones con el valor esperado conocido ... y un en la fórmula; una vez más, esto introduce cierta dependencia para tener en cuenta cuenta. $(X,Y)$ $(0,0)$ ${1\over n}$ $(X_1,Y_1)$ $n-1$ ${1\over n-1}$

PD La manera limpia de hacerlo es elegir una base ortonormal de , es decir, vectores tal que $\big\langle (1, \dots, 1)' \big\rangle^{\perp}$ $n-1$ $c_1, \dots, c_{n-1} \in \mathbb R^n$

$\sum_j c_{ij}^2 = 1$ para todo , $i$
$\sum_j c_{ij} = 0$ para todo , $i$
$\sum_j c_{i_1j} c_{i_2j} = 0$ para todos . $i_1 \ne i_2$

Luego puede definir variables y . Los son independientes, tienen un valor esperado y tienen la misma varianza / covarianza que las variables originales. $n-1$ $A_i = \sum_j c_{ij} X_j$ $B_i = \sum_j c_{ij} Y_j$ $(A_i,B_i)$ $(0,0)$

Todo el punto es que si quieres deshacerte de la expectativa desconocida, sueltas una (y solo una) observación. Esto funciona igual para ambos casos.

— Elvis
fuente

6

Aquí hay una prueba de que el estimador de covarianza muestral con variante p con denominador es un estimador imparcial de la matriz de covarianza: $\frac{1}{n-1}$

. $x' = (x_1,...,x_p)$

$\Sigma= E((x-\mu)(x-\mu)')$

$S = \frac{1}{n} \sum (x_i - \bar{x})(x_i - \bar{x})'$

Para mostrar: $E(S) = \frac{n-1}{n}\Sigma$

Prueba: $S= \frac{1}{n}\sum x_ix_i' - \bar{x}\bar{x}'$

(2) $E(\bar{x}\bar{x}') = \frac{1}{n} \Sigma+ \mu\mu'$

Por lo tanto: $E(S) = \Sigma + \mu\mu' - (\frac{1}{n} \Sigma+ \mu\mu') = \frac{n-1}{n} \Sigma$

Y entonces , con el denominador final $S_u = \frac{n}{n-1}S$ , es imparcial. Los elementos fuera de la diagonal deson sus covarianzas de muestra individuales. $\frac{1}{n-1}$ $S_u$

Observaciones adicionales:

Los n sorteos son independientes. Esto se usa en (2) para calcular la covarianza de la media muestral.
Los pasos (1) y (2) usan el hecho de que $Cov(x)= E[xx']-\mu\mu'$
El paso (2) utiliza el hecho de que $Cov(\bar{x})= \frac{1}{n}\Sigma$

— statchrist
fuente

¡La dificultad está en el paso 2! :)

— Elvis

@ Elvis Está desordenado. Es necesario aplicar la regla Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) y reconocer que los diferentes sorteos son independientes. Básicamente, se trata de resumir la covarianza n veces y

— reducirla

4

Supongo que una forma de desarrollar la intuición detrás del uso de 'n-1' y no 'n-2' es: para calcular la covarianza, no es necesario que quisemos decir X e Y, sino cualquiera de los dos, es decir

$\ sum (X- \ mu_x) (Y - \ mu_y) = \ sum (X- \ mu_x) Y \ \ \ o \ \ \ \ sum (Y- \ mu_y) X$

— Uditg_ucla
fuente

¿Podrías explicar cómo se relaciona esto con la pregunta de qué denominador usar? La relación algebraica en la evidencia deriva del hecho de que los residuos relativos a la media suman cero, pero por lo demás no dice qué denominador es relevante.

— whuber

55

Vine aquí porque tenía la misma pregunta que el OP. Creo que esta respuesta llega al meollo del punto @whuber señalado anteriormente: que la regla general es que df ~ = n - (parámetros estimados) pueden ser "vagos, poco rigurosos y potencialmente engañosos". Esto señala el hecho de que aunque parece que necesita estimar dos parámetros (xbar e ybar), en realidad solo estima uno (xbar o ybar). Como el df debería ser el mismo en ambos casos, debe ser el más bajo de los dos. Creo que esa es la intención aquí.

— mpettis

1

1) Inicio . $df=2n$

$\Sigma_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})$ $df$ $\bar{X}$ $\bar{Y}$ $df=2(n-1)$

$\Sigma_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})$ $n$

Como un ejemplo trillado, considere que

$24=1*24=2*12=3*8=4*6=6*4=8*3=12*2=24*1$

$24=2\sqrt{6}*2\sqrt{6}$ $df=n-1$

En otras palabras, sin pérdida de generalidad podemos escribir

$(X_i-\bar{X})(Y_i-\bar{Y})=z_i-\bar{z}$ $z_i$ $\bar{z}$

$z_i=X_iY_i-\bar{X}Y_i-X_i\bar{Y}$ $\bar{z}=\bar{X}\bar{Y}$ $z$ $df=n-1$

$\Sigma_{i=1}^n\frac{z_i-\bar{z}}{n-1}=$

$\Sigma_{i=1}^n\frac{[(X_i-\bar{X})(Y_i-\bar{Y})]}{n-1}=$

$\frac{1}{n-1}\Sigma_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})$

$df$

— Carl
fuente

@whuber ¿Cómo demonios conseguí lo mismo publicado dos veces y eliminado una vez? ¿Lo que da? ¿Podemos deshacernos de uno de ellos? Para referencia futura, ¿hay alguna forma de eliminar permanentemente tales duplicados? Tengo algunos dando vueltas y es molesto.

— Carl

Por lo que puedo decir, volviste a publicar tu respuesta desde el duplicado hasta aquí. (Nadie más tiene el poder de publicar respuestas en su nombre.) El sistema desaconseja publicar respuestas idénticas en múltiples hilos, así que cuando vi eso, me convenció de que estos dos hilos son duplicados perfectos y los "fusioné". Este es un procedimiento que mueve todos los comentarios y respuestas del hilo de origen al hilo de destino. Luego eliminé tu publicación duplicada aquí en el hilo objetivo. Permanecerá permanentemente eliminado, pero será visible tanto para usted como para personas de reputación suficientemente alta.

— whuber

@whuber No sabía qué sucede en una fusión, si se estaba llevando a cabo una fusión o cuáles son muchas de las reglas, a pesar de buscar cosas constantemente. Toma tiempo aprender, tenga paciencia, por cierto, ¿consideraría eliminar stats.stackexchange.com/questions/251700/…Hold ?

— Carl