Distribución de una distancia de Mahalanobis a nivel de observación

Si tengo una muestra de iid normal multivariante y defino (que es una especie de distancia de Mahalanobis [al cuadrado] desde un punto de muestra al vector usando la matriz para ponderar), ¿cuál es la distribución de (distancia de Mahalanobis al muestra media usando la matriz de covarianza de muestra )? $X_1, \ldots, X_n \sim N_p(\mu,\Sigma)$

d_{i}^{2} (b, A) = (X_{i} - b)^{'} A^{- 1} (X_{i} - b)

$d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)$

a

$a$

A

$A$

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

\bar{X}

$\bar X$

S

$S$

Estoy mirando un artículo que dice que es , pero esto obviamente es incorrecto: la se habría obtenido para utilizando el vector medio de población (desconocido) y matriz de covarianza. Cuando se conectan los análogos de muestra, se debe obtener una distribución Hotelling , o una distribución escalada , o algo así, pero no el . No pude encontrar el resultado exacto ni en Muirhead (2005) , ni en Anderson (2003) , ni en Mardia, Kent y Bibby (1979, 2003) $\chi^2_p$ $\chi^2_p$ $d_i^2(\mu,\Sigma)$ $T^{\ 2}$ $F(\cdot)$ $\chi^2_p$ . Aparentemente, estos tipos no se molestaron con diagnósticos atípicos, ya que la distribución normal multivariada es perfecta y se obtiene fácilmente cada vez que se recopilan datos multivariados: - /.

Las cosas pueden ser más complicadas que eso. El resultado de la distribución de Hotelling $T^{\ 2}$ se basa en asumir la independencia entre la parte del vector y la parte de la matriz; tal independencia se mantiene para $\bar X$ y $S$ , pero ya no es válida para $X_i$ y $S$ .

multivariate-analysis outliers

— StasK
fuente

En la definición de

d_{i}^{2}

$d_i^2$ , ¿todavía ve

X_{i}

$X_i$ como una variable aleatoria o ahora lo trata como un vector fijo? Incluir el subíndice sugiere lo último, pero eso parece un poco extraño.

— whuber

Solo una pequeña nota al margen, pero tenga en cuenta que

X_{i} - \bar{X}

$X_i - \bar{X}$ es auxiliar con respecto a

μ

$\mu$ y

\sum_{i} d_{i}^{2} (\bar{X}, S)

$\sum_i d_i^2(\bar{X},S)$ es igual a una constante fija ( debería ser

n - p

$n-p$ , o similar, creo) casi seguro.

— cardenal

@whuber: ¿quizás para enfatizar que se calcula utilizando una observación de la muestra, no una nueva observación?

— jbowman

@whuber, más o menos en la línea de lo que dijo jbowman, para indicar que esta es una estadística de nivel de observación (en oposición a una estadística de nivel de muestra, como la media de la muestra).

— StasK

La distribución de es beta, , pero todavía estoy buscando la distribución de . Las distribuciones de los no son independientes.

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

n / (n - 1)^{2} d_{i}^{2} (\bar{X}, S) \sim B (p / 2, (n - p - 1) / 2)

$n/(n-1)^2 d_i^2(\bar X,S) \sim B(p/2, (n-p-1)/2)$

d_{i}^{2} (μ, S)

$d^2_i(\mu, S)$

d_{i}^{2}

$d^2_i$

Respuestas:

Echa un vistazo a los modelos de mezcla gaussiana explotando la distancia de Mahalanobis ( enlace alternativo ). Ver página no 13, segunda columna. Los autores también dieron algunas pruebas también para derivar la distribución. La distribución es beta escalada. Avíseme si esto no funciona para usted. De lo contrario, podría revisar cualquier pista en el libro de SS Wilks mañana.

— vinux
fuente

La respuesta dada en el documento es: . ¡Gracias!

\frac{n}{(n - 1)^{2}} d_{i}^{2} (\bar{X}, S) \sim B (\frac{p}{2}, \frac{n - p - 1}{2})

$\frac{n}{(n-1)^2} d_i^2(\bar X, S) \sim B(\frac{p}{2}, \frac{n-p-1}{2} )$

— StasK

Hay 3 distribuciones relevantes. Como se señaló, si se usan los parámetros de población verdaderos, entonces la distribución es chi-cuadrado con . Esta es también la distribución asintótica con parámetros estimados y gran tamaño de muestra. $df=p$

Otra respuesta proporciona la distribución correcta para la situación más común, con parámetros estimados cuando la observación en sí misma es parte del conjunto de estimación: Sin embargo, si la observación es independiente de las estimaciones de los parámetros, entonces la distribución es proporcional a la distribución de la relación F de Fisher:

\frac{n (d^{2})}{(n - 1)^{2}} \sim B e t a (\frac{p}{2}, \frac{(n - p - 1)}{2}) .

$\frac{n(d^2)}{(n-1)^2} \sim Beta\left(\frac{p}{2}, \frac{(n-p-1)}{2}\right).$

x_{i}

$x_i$

(\frac{n d^{2} (n - p)}{(p (n - 1) (n + 1)}) \sim F (p, n - p)

$\left(\frac{nd^2(n-p)}{(p(n-1)(n+1)}\right) \sim F(p, n-p)$

— Joe Sullivan
fuente

Bienvenido al sitio, @ JoeSullivan. Me tomé la libertad de usar para que tus ecuaciones sean más fáciles de leer. Asegúrate de que sigan diciendo lo que quieres.

L A T E X

$\LaTeX$

— gung - Restablece a Monica

¿Puedes dar una referencia para la fórmula F?

— eyaler

una referencia relacionada, sección 3 en Hardin, Johanna y David M. Rocke. 2005. "La distribución de distancias robustas". Journal of Computational and Graphical Statistics 14 (4): 928–46. doi: 10.1198 / 106186005X77685.

— Josef