¿Cuál es la estimación de máxima verosimilitud de la covarianza de los datos normales bivariados cuando se conocen la media y la varianza?

Supongamos que tenemos una muestra aleatoria de una distribución normal bivariada que tiene ceros como medias y unos como varianzas, por lo que el único parámetro desconocido es la covarianza. ¿Cuál es el MLE de la covarianza? Sé que debería ser algo así como pero ¿cómo sabemos esto? $\frac{1}{n} \sum_{j=1}^{n}x_j y_j$

— Stacy
fuente

Como titular, ¿no crees que es un poco incierto calcular las medias con y cuando de hecho sabemos que son 0 y 0?

\bar{x}

$\bar{x}$

\bar{y}

$\bar{y}$

— Wolfgang

Muy impuro, lo arregló. Todavía no veo cómo esto puede seguir fácilmente. Es análogo a la varianza de la muestra, pero ¿por qué es el MLE (a menos que no sea así y cometí otro error)

— Stacy

¿Ha eliminado ? Tomar esta fórmula no significa que considere y como las estimaciones de las medias.

\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})

$\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i - \bar y)$

\bar{x}

$\bar x$

\bar{y}

$\bar y$

— Stéphane Laurent

@ StéphaneLaurent Sí, en la publicación inicial, la fórmula se proporcionó tal como la escribió.

— Wolfgang

El estimador del coeficiente de correlación (que en el caso de un estándar bivariado normal es igual a la covarianza)

\tilde{r} = \frac{1}{norte} \sum_{yo = 1}^{norte} X_{yo} y_{yo}

$\tilde r = \frac 1n\sum_{i=1}^nx_iy_i$

es el estimador del Método de Momentos, la covarianza muestral. Veamos si coincide con el estimador de máxima verosimilitud, . $\hat \rho$

La densidad articular de un estándar bivariado normal con coeficiente de correlación es $\rho$

F (X, y) = \frac{1}{2 π \sqrt{1 - ρ^{2}}} Exp {- \frac{X^{2} + y^{2} - 2 ρ X y}{2 (1 - ρ^{2})}}

$f(x,y) = \frac{1}{2 \pi \sqrt{1-\rho^2}} \exp\left\{-\frac{x^2 +y^2 -2\rho xy}{2(1-\rho^2)}\right\}$

y entonces la probabilidad logarítmica de una muestra iid de tamaño es $n$

En L = - norte En (2 π) - \frac{norte}{2} En (1 - ρ^{2}) - \frac{1}{2 (1 - ρ^{2})} \sum_{yo = 1}^{norte} (X_{yo}^{2} + y_{yo}^{2} - 2 ρ X_{yo} y_{yo})

$\ln L = -n\ln(2\pi) -\frac n2\ln(1-\rho^2) - \frac 1{2(1-\rho^2)}\sum_{i=1}^n(x_i^2 +y_i^2 -2\rho x_iy_i)$

(aquí la suposición de iid es con respecto a cada dibujo de la población bidimensional, por supuesto)

Tomar la derivada con respecto a y establecerla igual a cero da un polinomio de grado 3d en : $\rho$ $\rho$

\hat{ρ} : norte {\hat{ρ}}^{3} - (\sum_{yo = 1}^{norte} X_{yo} y_{yo}) {\hat{ρ}}^{2} - (1 - \frac{1}{norte} \sum_{yo = 1}^{norte} (X_{yo}^{2} + y_{yo}^{2})) norte \hat{ρ} - \sum_{yo = 1}^{norte} X_{yo} y_{yo} = 0 0

$\hat \rho: n\hat \rho^3 -\left(\sum_{i=1}^nx_iy_i\right)\hat\rho^2 -\left(1- \frac 1n\sum_{i=1}^n(x_i^2 +y_i^2) \right)n\hat \rho - \sum_{i=1}^nx_iy_i =0$

Se puede verificar que los cálculos sean correctos si se toma el valor esperado de la derivada evaluada con el coeficiente verdadero será igual a cero. $\rho$

Por compacidad, de escritura , que es la suma de la muestra de varianzas de y . Si dividimos la expresión de la 1ª derivada por , aparecerá el estimador MoM, específicamente $(1/n)\sum_{i=1}^n(x_i^2 +y_i^2) = (1/n)S_2$ $X$ $Y$ $n$

\hat{ρ} : {\hat{ρ}}^{3} - \tilde{r} {\hat{ρ}}^{2} + [(1 / / norte) S_{2} - 1] \hat{ρ} - \tilde{r} = 0 0

$\hat \rho: \hat \rho^3 -\tilde r \hat \rho^2 + \big[(1/n)S_2-1\big]\hat \rho -\tilde r=0$

\Rightarrow \hat{ρ} ({\hat{ρ}}^{2} - \tilde{r} \hat{ρ} + [(1 / / norte) S_{2} - 1]) = \tilde{r}

$\Rightarrow \hat \rho\Big(\hat \rho^2 -\tilde r \hat \rho + \big[(1/n)S_2-1\big] \Big) = \tilde r$

Haciendo el álgebra, no es difícil concluir que obtendremos si, y sólo si, , es decir, sólo si se da la circunstancia de que la suma de las varianzas de muestra es igual a la suma de verdaderas variaciones. Entonces en general $\hat \rho = \tilde r$ $(1/n)S_2 =2$

\hat{ρ} \neq \tilde{r}

$\hat \rho \neq \tilde r$

Entonces, ¿qué pasa aquí? Alguien más sabio lo explicará, por el momento, intentemos una simulación: generé una muestra iid de dos normales estándar con coeficiente de correlación . El tamaño de la muestra fue . Los valores de la muestra fueron $\rho=0.6$ $n=1.000$

\sum_{yo = 1}^{norte} X_{yo} y_{yo} = 522.05, S_{2} = 1913,28

$\sum_{i=1}^nx_iy_i = 522.05,\;\;S_2 = 1913.28$

El estimador del Método de Momentos nos da

\tilde{r} = \frac{522.05}{1000} = 0,522

$\tilde r = \frac {522.05}{1000} = 0.522$

¿Qué pasa con el log-verosimilitud? Visualmente tenemos

ingrese la descripción de la imagen aquí

Numéricamente tenemos

\begin{array}{rrr} ρ & 1st deriv & lnL \\ 0.5 0.5 & - 70,92 & - 783,65 \\ 0,51 & - 59,41 & - 782,47 \\ 0,52 & - 47,7 & - 781,48 \\ 0,53 & - 35,78 & - 780,68 \\ 0,54 & - 23,64 & - 780,1 \\ 0,55 & - 11,29 & - 779,75 \\ 0,56 & 1,29 & - 779,64 \\ 0,57 & 14.1 & - 779,81 \\ 0,58 & 27,15 & - 780,27 \\ 0,59 & 40,44 & - 781.05 \\ 0.6 & 53,98 & - 782,18 \end{array}

$\begin{array}{| r | r | r |} \hline \hline ρ&\text{1st deriv}&\text{lnL}\\ \hline 0.5&-70.92&-783.65\\ 0.51&-59.41&-782.47\\ 0.52&-47.7&-781.48\\ 0.53&-35.78&-780.68\\ 0.54&-23.64&-780.1\\ 0.55&-11.29&-779.75\\ 0.56&1.29&-779.64\\ 0.57&14.1&-779.81\\ 0.58&27.15&-780.27\\ 0.59&40.44&-781.05\\ 0.6&53.98&-782.18\\ \hline \end{array}$

y vemos que el logaritmo de la verosimilitud tiene un máximo un poco antes de , donde también la primera derivada se convierte en cero . No hay sorpresas para los valores de no mostrados. Además, la primera derivada no tiene otra raíz. $\rho=0.56$ $(\hat \rho = 0.558985)$ $\rho$

Entonces, esta simulación concuerda con el resultado de que el estimador de máxima verosimilitud no es igual al método del estimador de momentos (que es la covarianza de la muestra entre los dos rv).

Pero parece que "todos" están diciendo que debería ... así que alguien debería dar una explicación.

ACTUALIZAR

Una referencia que prueba que el MLE es el estimador del Método de Momentos: Anderson, TW y Olkin, I. (1985). Estimación de máxima verosimilitud de los parámetros de una distribución normal multivariante. Álgebra lineal y sus aplicaciones, 70, 147-171.
¿Importa que aquí todos los medios y las variaciones sean libres de variar y no repararse?

... Probablemente sí, porque el comentario de @ guy en otra respuesta (ahora eliminada) dice que, con los parámetros de media y varianza dados , la bivariada normal se convierte en un miembro de la familia exponencial curva (y algunos resultados y propiedades cambian) ... que parece ser la única forma de conciliar los dos resultados.

— Alecos Papadopoulos
fuente

Esto es un poco sorprendente, pero después de algunas reflexiones debería esperarse. El problema puede reformularse como la estimación del coeficiente de regresión

en el modelo

donde

ρ

$\rho$

Y = ρ X + ϵ

$Y = \rho X + \epsilon$

. Este no es un modelo lineal, por lo que no hay razón para esperar que el MLE sea un simple producto de puntos. La misma lógica muestra (¡creo!) Que si solo conocemos

entonces el MLE es

, y

si solo conocemos

. Si no lo sabemos, obtenemos su estimador MOM.

ϵ \sim N (0, {\sqrt{1 - ρ^{2}}}^{2})

$\epsilon \sim \mathcal N(0, \sqrt{1 - \rho^2}^2)$

Var (X)

$\mbox{Var}(X)$

x^{'} y / x^{'} x

$x'y / x'x$

x^{'} y / y^{'} y

$x'y / y'y$

Var (Y)

$\mbox{Var}(Y)$

— chico

@ Guy: Muy interesante. ¡Creo que estos argumentos, si se expanden ligeramente, merecen ser publicados como una respuesta por separado!

— ameba

ϵ^{2} = (y - ρ x)^{2} = y^{2} - 2 ρ x y + ρ^{2} x^{2}

$\epsilon^2=(y-\rho x)^2 = y^2 -2\rho xy + \rho^2 x^2$

ρ^{2}

$\rho^2$

x^{2}

$x^2$

\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})

$\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i - \bar y)$

n = 2

$n=2$

y_{1} = y_{2}

$y_1=y_2$

0

$0$

x^{2} + y^{2} - 2 ρ x y = (1 - ρ^{2}) x^{2} + (y - ρ x)^{2}

$x^2 + y^2 - 2\rho x y = (1 - \rho^2) x^2 + (y - \rho x)^2$

(1 - ρ^{2}) x^{2}

$(1 - \rho^2) x^2$

(1 - ρ^{2})

$(1 - \rho^2)$

(y - ρ x)^{2} / (1 - ρ^{2})

$(y - \rho x)^2 / (1 - \rho^2)$

X \sim N (μ_{X}, σ_{X}^{2})

$X \sim N(\mu_X, \sigma^2_X)$

[Y | X] \sim N (μ_{Y} + ρ_{X} \frac{σ_{Y}}{σ_{X}} (X - μ_{X}), σ_{Y | X}^{2} {\sqrt{1 - ρ^{2}}}^{2})

$[Y|X] \sim N(\mu_Y + \rho_X \frac{\sigma_Y}{\sigma_X} (X - \mu_X), \sigma^2_{Y|X} \sqrt{1 - \rho^2}^2)$

σ_{Y} / σ_{X}

$\sigma_Y/\sigma_X$

$\mu_X = \mu_Y = 0$ $\sigma_X = \sigma_Y = 1$ $n$

L (ρ El | X, Y) = \frac{1}{(2 π [1 - ρ^{2}])^{norte / / 2}} Exp [- \frac{1}{2 (1 - ρ^{2})} (X^{'} X - 2 ρ X^{'} Y + Y^{'} Y)] .

$L(\rho\; |\; X, Y) = \frac{1}{(2\pi[1-\rho^2])^{n/2}}\exp \left[-\frac{1}{2(1-\rho^2)}(X'X - 2\rho X'Y + Y'Y)\right].$

$\rho$ $\hat{\rho}$

— Dennis
fuente