¿Para qué distribuciones (simétricas) la muestra significa un estimador más eficiente que la mediana de la muestra?

17

He trabajado bajo la creencia de que la mediana muestral es una medida más robusta de tendencia central que la media muestral, ya que ignora los valores atípicos. Por lo tanto, me sorprendió saber (en la respuesta a otra pregunta ) que para las muestras extraídas de una distribución normal, la varianza de la media de la muestra es menor que la varianza de la mediana de la muestra (al menos para grande ). $n$

Entiendo matemáticamente por qué esto es cierto. ¿Existe una forma "filosófica" de ver esto que ayude con la intuición sobre cuándo usar la mediana en lugar de la media para otras distribuciones?

¿Existen herramientas matemáticas que ayudan a responder rápidamente la pregunta para una distribución particular?

— Josh Brown Kramer
fuente

20

Supongamos que restringimos la consideración a distribuciones simétricas donde la media y la varianza son finitas (por lo tanto, Cauchy, por ejemplo, se excluye de la consideración).

Además, me limitaré inicialmente a casos unimodales continuos, y de hecho principalmente a situaciones "agradables" (aunque podría volver más tarde y discutir algunos otros casos).

La variación relativa depende del tamaño de la muestra. Es común discutir la proporción de ( veces las) variaciones asintóticas, pero debemos tener en cuenta que a tamaños de muestra más pequeños la situación será algo diferente. (La mediana a veces es notablemente mejor o peor de lo que sugeriría su comportamiento asintótico. Por ejemplo, en la normalidad con tiene una eficiencia de aproximadamente el 74% en lugar del 63%. El comportamiento asintótico generalmente es una buena guía a un nivel bastante moderado tamaños de muestra, sin embargo). $n$ $n=3$

Las asintóticas son bastante fáciles de manejar:

Media: varianza = . $n\times$ $\sigma^2$

Mediana : varianza = donde es la altura de la densidad en la mediana. $n\times$ $\frac{1}{[4f(m)^2]}$ $f(m)$

Entonces, si , la mediana será asintóticamente más eficiente. $f(m)>\frac{1}{2\sigma}$

[En el caso normal, , entonces , de ahí la eficiencia relativa asintótica de )] $f(m)= \frac{1}{\sqrt{2\pi}\sigma}$ $\frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2}$ $2/\pi$

Podemos ver que la varianza de la mediana dependerá del comportamiento de la densidad muy cerca del centro, mientras que la varianza de la media depende de la varianza de la distribución original (que en cierto sentido se ve afectada por la densidad en todas partes, y en en particular, más por cierto se comporta más lejos del centro)

Es decir, mientras que la mediana se ve menos afectada por los valores atípicos que la media, y a menudo vemos que tiene una varianza menor que la media cuando la distribución es de cola pesada (lo que produce más valores atípicos), lo que realmente impulsa el rendimiento de la la mediana es inliers . A menudo sucede que (para una variación fija) hay una tendencia a que los dos vayan juntos.

Es decir, en términos generales, a medida que la cola se vuelve más pesada, existe una tendencia para (a un valor fijo de ) que la distribución se vuelva "más alta" al mismo tiempo (más kurtótica, en un sentido flexible). Sin embargo, esto no es cierto: tiende a ser el caso en una amplia gama de densidades comúnmente consideradas, pero no siempre es así. Cuando se cumple, la varianza de la mediana se reducirá (porque la distribución tiene más probabilidad en la vecindad inmediata de la mediana), mientras que la varianza de la media se mantiene constante (porque fijamos ). $\sigma^2$ $\sigma^2$

Entonces, en una variedad de casos comunes, la mediana a menudo tenderá a ser "mejor" que la media cuando la cola es pesada (pero debemos tener en cuenta que es relativamente fácil construir contraejemplos). Por lo tanto, podemos considerar algunos casos, que pueden mostrarnos lo que a menudo vemos, pero no deberíamos leer demasiado en ellos, porque la cola más pesada no coincide universalmente con un pico más alto.

Sabemos que la mediana es aproximadamente 63.7% tan eficiente (para grande) como la media en la normalidad. $n$

¿Qué tal, digamos una distribución logística , que como la normal es aproximadamente parabólica sobre el centro, pero tiene colas más pesadas (a medida que hace grande, se vuelven exponenciales). $x$

Si consideramos que el parámetro de escala es 1, la logística tiene una varianza y una altura en la mediana de 1/4, entonces . La proporción de varianzas es entonces por lo que en muestras grandes, la mediana es aproximadamente 82% tan eficiente como la media. $\pi^2/3$ $\frac{1}{4f(m)^2}=4$ $\pi^2/12\approx 0.82$

Consideremos otras dos densidades con colas exponenciales, pero diferente pico.

Primero, la distribución de la secante hiperbólica ( ) $\text{sech}$ , para la cual la forma estándar tiene la varianza 1 y la altura en el centro de , por lo que la relación de las variaciones asintóticas es 1 (las dos son igualmente eficiente en muestras grandes). Sin embargo, en muestras pequeñas, la media es más eficiente (su varianza es aproximadamente el 95% de la media para , por ejemplo). $\frac{1}{2}$ $n=5$

Aquí podemos ver cómo, a medida que avanzamos a través de esas tres densidades (manteniendo la varianza constante), la altura en la mediana aumenta:

ingrese la descripción de la imagen aquí

¿Podemos hacerlo subir aún más? De hecho podemos. Considere, por ejemplo, el doble exponencial . La forma estándar tiene varianza 2, y la altura en la mediana es (así que si escalamos a la varianza unitaria como en el diagrama, el pico está en , justo por encima de 0.7). La varianza asintótica de la mediana es la mitad de la media. $\frac{1}{2}$ $\frac{1}{\sqrt{2}}$

Si hacemos que la distribución sea aún más alta para una variación dada (quizás haciendo que la cola sea más pesada que exponencial), la mediana puede ser mucho más eficiente (en términos relativos). Realmente no hay límite para cuán alto puede llegar ese pico.

Si en su lugar hubiéramos utilizado ejemplos de, digamos, las distribuciones t, se verían efectos ampliamente similares, pero la progresión sería diferente; el punto de cruce está un poco por debajo de df (en realidad, alrededor de 4,68): para df más pequeño, la mediana es más eficiente, para df grande la media es. $\nu=5$

...

En tamaños de muestra finitos, a veces es posible calcular la varianza de la distribución de la mediana explícitamente. Cuando eso no sea factible, o incluso inconveniente, podemos usar la simulación para calcular la varianza de la mediana (o la relación de la varianza *) a través de muestras aleatorias extraídas de la distribución (que es lo que hice para obtener las pequeñas muestras de arriba )

* Aunque a menudo no necesitamos la varianza de la media, ya que podemos calcularla si conocemos la varianza de la distribución, puede ser más eficiente desde el punto de vista computacional, ya que actúa como una variante de control (la media y la mediana a menudo están bastante correlacionadas).

— Glen_b -Reinstate a Monica
fuente

1

F (X) = \frac{1}{2} {mi}^{- El | X - μ El |}, - \infty < X < \infty

$f(x) = \frac12 e^{-|x-\mu|} , \quad -\infty < x < \infty$

μ

$\mu$

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dotsc , X_n$

2 / n

$2/n$

\frac{1}{4 n f (μ)^{2}} = \frac{1}{4 n / 4} = 1 / n < 2 / n

$\frac1{4 n f(\mu)^2} = \frac1{4 n / 4} = 1/n < 2/n$

$\sigma^2 = 1$ $1/n$ $n$ $\frac1{4 n (1/\sqrt{2\pi})^2} = \frac{\pi}{2 n} \approx 1.57/n > 1/n$

— kjetil b halvorsen
fuente