¿Es la media de la muestra la "mejor" estimación de la distribución media en algún sentido?

Por ley (débil / fuerte) de números grandes, dados algunos puntos de muestra iid de una distribución, su muestra significa converge a la media de distribución tanto en probabilidad como en tamaño de muestra va al infinito $\{x_i \in \mathbb{R}^n, i=1,\ldots,N\}$ $f^*(\{x_i, i=1,\ldots,N\}):=\frac{1}{N} \sum_{i=1}^N x_i$ $N$

Cuando el tamaño de la muestra $N$ es fijo, me pregunto si el estimador LLN $f^*$ es el mejor estimador en algún sentido. Por ejemplo,

su expectativa es la media de distribución, por lo que es un estimador imparcial. Su varianza es $\frac{\sigma^2}{N}$ donde $\sigma^2$ es la varianza de distribución. ¿Pero es UMVU?
¿hay alguna función $l_0: \mathbb{R}^n \times \mathbb{R}^n \rightarrow [0,\infty)$ tal que $f^*(\{x_i, i=1,\ldots,N\})$ resuelva el problema de minimización:
$f^{*} ({x_{i}, i = 1, \dots, N}) = {argmin}_{u \in R^{n}} \sum_{i = 1}^{N} l_{0} (x_{i}, u) ?$ $f^*(\{x_i, i=1,\ldots,N\}) = \operatorname{argmin}_{u \in \mathbb{R}^n} \quad \sum_{i=1}^N l_0(x_i, u)?$
En otras palabras, $f^*$ es la mejor wrt alguna función de contraste $l_0$ en el marco de contraste mínimo (véase la Sección 2.1 "Heurística básica de estimación" en " Estadística matemática: ideas básicas y temas seleccionados, Volumen 1 " de Bickle y Doksum).

Por ejemplo, si se sabe / restringe la distribución de la familia de distribuciones gaussianas, entonces la media de la muestra será el estimador MLE de la media de distribución, y MLE pertenece al marco de contraste mínimo, y su función de contraste $l_0$ es menos la probabilidad logarítmica función.
¿hay alguna función tal que resuelva el problema de minimización: para cualquier distribución de dentro de alguna familia de distribuciones? $l: \mathbb{R}^n \times F \rightarrow [0,\infty)$ $f^*$
$f^{*} = {argmin}_{f} E_{iid {x_{i}, i = 1, \dots, N} each with distribution P} l (f ({x_{i}, i = 1, \dots, N}), P) ?$ $f^* = \operatorname{argmin}_{f} \quad \operatorname{E}_{\text{iid }\{x_i, i=1,\ldots,N\} \text{ each with distribution }P } \quad l(f(\{x_i, i=1,\ldots,N\}), P)?$ $P$ $x_i$ $F$
En otras palabras, es la mejor wrt alguna función perdida y alguna familia de distribuciones en el marco teórico de decisión (véase la Sección 1.3 "El Marco Teórico de Decisión" en " Estadística matemática: ideas básicas y temas seleccionados, Volumen 1 " por Bickle y Doksum). $f^*$ $l$ $F$

Tenga en cuenta que las anteriores son tres interpretaciones diferentes para una "mejor" estimación que he conocido hasta ahora. Si conoce otras posibles interpretaciones que pueden aplicarse al estimador LLN, no dude en mencionarlo también.

estimation expected-value law-of-large-numbers

— Tim
fuente

Otra forma de caracterizar un estimador: lea sobre el Estimador consistente aquí . La media muestral es consistente debido a LLN.

— Rohit Banga

La media de la muestra tiene muchas propiedades agradables e interesantes, pero a veces no son las mejores que uno puede tener en una situación particular. Un ejemplo son los casos en que el soporte de la distribución depende del valor del parámetro. Considere , luego es un estimador imparcial de la la media de distribución pero no es el UMVUE, por ejemplo, las estimaciones imparciales basadas en la estadística de orden más grande tendrán una varianza menor que la media de la muestra.

X_{1}, X_{2}, \dots, X_{n} \sim U (0, θ)

$X_1, X_2, \ldots, X_n \sim \mathcal{U}(0,\theta)$

\frac{1}{n} \sum_{i = 1}^{n} X_{i}

$\frac{1}{n} \sum_{i=1}^{n} X_i$

θ

$\theta$

\frac{n + 1}{n} X_{(n)}

$\frac{n+1}{n}X_{(n)}$

— VitalStatistix

¡Gracias! Pero, ¿cómo se calcula su varianza?

— Tim

El pdf de , la estadística de orden más grande está dada por, , entonces la varianza del estimador insesgado será, , es decir, la varianza es del orden de , en comparación con la varianza de la media muestral que es del orden .

Y = X_{(n)}

$Y=X_{(n)}$

f (y) = \frac{n y^{n - 1}}{θ^{n}}; y \in (0, θ)

$f(y)= \frac{ny^{n-1}}{{\theta}^n} ; y\in (0,\theta)$

\frac{n}{n + 1} Y

$\frac{n}{n+1}Y$

V a r (\frac{n}{n + 1} Y) = \frac{1}{n (n + 2)} θ^{2}

$Var(\frac{n}{n+1}Y)=\frac{1}{n(n+2)}\theta^2$

\frac{1}{n^{2}}

$\frac{1}{n^2}$

\frac{1}{n}

$\frac{1}{n}$

— VitalStatistix

@VitalStatistix, ¿me estoy perdiendo algo por completo aquí? Si las variables son uniformes en su media muestral tiene expectativa , entonces ¿no desea multiplicar por 2 para obtener un estimador imparcial de ?

[0, θ]

$[0, \theta]$

θ / 2

$\theta/2$

θ

$\theta$

— NRH

La respuesta a su segunda pregunta es sí: la media de la muestra es un estimador de contraste mínimo cuando su función es , cuando x y u son números reales, o , cuando x y u son vectores de columna Esto se desprende de la teoría de los mínimos cuadrados o el cálculo diferencial. $l_0$ $(x-u)^2$ $(x-u)'(x-u)$

Un estimador de contraste mínimo es, bajo ciertas condiciones técnicas, tanto consistente como asintóticamente normal. Para la media muestral, esto ya se desprende del LLN y del teorema del límite central. No sé si los estimadores de contraste mínimo son "óptimos" de ninguna manera. Lo bueno de los estimadores de contraste mínimo es que muchos estimadores robustos (por ejemplo, la mediana, los estimadores de Huber, los cuantiles de muestra) pertenecen a esta familia, y podemos concluir que son consistentes y asintóticamente normales simplemente aplicando el teorema general para estimadores de contraste mínimo, por lo que siempre que verifiquemos algunas condiciones técnicas (aunque a menudo esto es mucho más difícil de lo que parece).

Una noción de optimismo que no menciona en su pregunta es la eficiencia que, en términos generales, se trata de qué tan grande es una muestra que necesita para obtener una estimación de una determinada calidad. Ver http://en.wikipedia.org/wiki/Efficiency_(statistics)#Asymptotic_efficiency para una comparación de la eficiencia de la media y la mediana (la media es más eficiente, pero la mediana es más robusta para los valores atípicos).

Para la tercera pregunta, sin alguna restricción en el conjunto de funciones f sobre las cuales está encontrando el argmin, no creo que la media de la muestra sea óptima. Para cualquier distribución P, puede arreglar f para que sea una constante que ignore las 's y minimice la pérdida para el P. particular La media de la muestra no puede superar eso. $x_i$

La optimización de Minimax es una condición más débil que la que usted da: en lugar de pedir que sea la mejor función para cualquier en una clase, puede pedir que tenga el mejor rendimiento en el peor de los casos. Es decir, entre el argumento y la expectativa, coloque un . Optimalidad Bayesiano es otro enfoque: poner una distribución previa en , y tomar la expectativa sobre , así como la muestra de . $f^*$ $P$ $f^*$ $\max_{P\in F}$ $P\in F$ $P$ $P$

— DavidR
fuente

¡Gracias! ¿Existen algunas buenas referencias sobre las propiedades del estimador de contraste mínimo, como las consistentes y asintóticamente normales, así como ejemplos como la mediana, los estimadores de Huber, los cuantiles de muestra?

— Tim

La Sección 5.2.2 del libro de Bickel & Doksum que usted cita tiene un teorema sobre la consistencia de los estimadores de contraste mínimo. La sección 5.4.2 discute la normalidad asintótica. Otra fuente que recomiendo, y que analiza los otros estimadores que menciono, es el libro de estadísticas asintóticas de van der Vaart . El Capítulo 5 trata sobre los estimadores M, que es su nombre para estimadores de contraste mínimo.

— DavidR

¡Gracias! ¿La norma en su primer párrafo es arbitraria en o debe ser la norma ?

R^{n}

$\mathbb{R}^n$

l_{2}

$l_2$

— Tim

Me refiero a la norma euclidiana estándar: la he cambiado a notación vectorial para aclararla.

— DavidR

DavidR, gracias! (1) Con respecto a la parte 3 en mi publicación, me pregunto si la media de la muestra, es decir, el estimador LLN, puede encajar en el marco teórico de decisión para alguna función de pérdida ? (2) Tengo la impresión de que todos los estimadores, como MLE y Least Square Estimator, se ajustan al marco de contraste mínimo, pero no al marco teórico de decisión. Entonces, ¿el marco teórico de decisión no se usa para construir estimadores, sino solo para evaluarlos?

l

$l$

— Tim