¿Los estimadores eficientes imparciales son estocásticamente dominantes sobre otros estimadores imparciales (medianos)?

Descripción general

¿Un estimador eficiente (que tiene una varianza muestral igual al límite de Cramér-Rao) maximiza la probabilidad de estar cerca del parámetro verdadero ? $\theta$

Digamos que comparamos la diferencia o la diferencia absoluta entre la estimación y el parámetro verdadero

\hat{Δ} = \hat{θ} - θ

$\hat\Delta = \hat \theta - \theta$

¿Es la distribución de para un estimador eficiente dominante estocásticamente sobre la distribución de para cualquier otro estimador imparcial? $\hat\Delta$ $\tilde\Delta$

Motivación

Estoy pensando en esto debido a la pregunta Estimador que es óptimo bajo todas las funciones de pérdida sensible (evaluación) donde podemos decir que el mejor estimador imparcial con respecto a una función de pérdida convexa también es el mejor estimador imparcial con respecto a otra función de pérdida (De Iosif Pinelis, 2015, Una caracterización de los mejores estimadores insesgados. ArXiv preprint arXiv: 1508.07636 ). El dominio estocástico por estar cerca del parámetro verdadero parece ser similar a mí (es una condición suficiente y una declaración más fuerte).

Expresiones más precisas

El enunciado de la pregunta anterior es amplio, por ejemplo, ¿qué tipo de imparcialidad se considera y tenemos la misma métrica de distancia para las diferencias negativas y positivas?

Consideremos los siguientes dos casos para hacer la pregunta menos amplia: $^\dagger$

Conjetura 1: si $\hat \theta$ es un estimador eficiente medio e imparcial medio. Luego, para cualquier estimador medio e imparcial medio $\tilde \theta$

Si X > 0 0 entonces PAGS [\hat{Δ} \leq X] \geq PAGS [\tilde{Δ} \leq X] Si X < 0 0 entonces PAGS [\hat{Δ} \geq X] \geq PAGS [\tilde{Δ} \geq X]

$\text{if $x>0$ then } P[\hat\Delta \leq x] \geq P[\tilde\Delta \leq x] \\ \text{if $x<0$ then } P[\hat\Delta \geq x] \geq P[\tilde\Delta \geq x]$ dónde

\hat{Δ} = \hat{θ} - θ

$\hat \Delta = \hat \theta - \theta$ y

\tilde{Δ} = \tilde{θ} - θ

$\tilde \Delta = \tilde \theta - \theta$

Conjetura 2: si $\hat \theta$ es un estimador eficiente sin sesgos medios. Entonces para cualquier estimador imparcial medio $\tilde \theta$ y $x>0$

PAGS [El | \hat{Δ} El | \geq X] \leq PAGS [El | \tilde{Δ} El | \geq X]

$P[\vert \hat\Delta \vert \geq x] \leq P[\vert \tilde\Delta \vert \geq x]$

¿Son ciertas las conjeturas anteriores?
Si las proposiciones son demasiado fuertes, ¿podemos adaptarlas para que funcione?

^{$\dagger$ El segundo está relacionado con el primero, pero elimina la restricción para la imparcialidad media (y luego tenemos que tomar ambos lados juntos o, de lo contrario, la proposición sería falsa para cualquier estimador que tenga una mediana diferente que el estimador eficiente).}

Ejemplo, ilustración:

Considere la estimación de la media. $\mu$ de la distribución de una población (que se supone que está distribuida normalmente) por (1) la mediana de la muestra y (2) la media de la muestra.

En el caso de una muestra de tamaño 5, y cuando la verdadera distribución de la población es $N(0,1)$ esto parece

En la imagen vemos que el CDF plegado de la muestra media (que es un estimador eficiente para $\mu$ ) está debajo del CDF plegado de la mediana muestral. La pregunta es si el CDF plegado de la media muestral también está por debajo del CDF plegado de cualquier otro estimador imparcial.

Alternativamente, usando el CDF en lugar de los CDF plegados, podemos hacernos la pregunta de si el CDF de la media maximiza la distancia desde 0.5 en cada punto. Lo sabemos

\forall \hat{θ} : El | F_{metro mi una norte} (\hat{θ}) - 0,5 El | \geq El | F_{metro mi re yo una norte} (\hat{θ}) - 0,5 El |

$\forall \hat \theta : |F_{mean}(\hat \theta)-0.5| \geq |F_{median}(\hat \theta)-0.5|$

¿También tenemos esto cuando reemplazamos $F_{median}(\hat \theta)$ para la distribución de cualquier otro estimador medio e imparcial medio?

— Sexto Empírico
fuente

Verifique la Pitman nearnesspalabra clave, no es que este criterio me parezca particularmente sensible.

— Xi'an

A partir de la conjetura, parecería más razonable utilizar estimadores sin sesgos medios que estimadores sin sesgos medios. (Los estimadores imparciales existen en pocos entornos y los mejores imparciales en incluso menos entornos.)

— Xi'an

El 'criterio de cercanía de Pitman' es realmente interesante. Según la información en Wikipedia, lo veo como "la probabilidad de que la diferencia absoluta esté más cerca". Sin embargo, es un poco diferente. Este criterio de cercanía de Pitman podría crear casos interesantes donde algún estimador tiene en promedio una diferencia absoluta menor pero no gana de acuerdo con este criterio de cercanía.

— Sextus Empiricus el

El criterio que usted propone es invariable por las transformaciones biotivas monótonas, pero la imparcialidad media no lo es, mientras que la imparcialidad media sí lo es. También es increíblemente fuerte en que el cdf de

\hat{θ}

$\hat\theta$ tiene que estar por encima del cdf de

\tilde{θ}

$\tilde\theta$ encima

θ

$\theta$ y debajo del cdf de

\tilde{θ}

$\tilde\theta$ abajo

θ

$\theta$ , para todos los valores del parámetro

θ

$\theta$ .

— Xi'an

@ Xi'an He añadido un ejemplo visual y ahora recibo tu comentario sobre la parcialidad versus la parcialidad media. He ajustado la pregunta (aunque está divergiendo de mi idea original relacionada con la pregunta vinculada que ahora necesita algunos ajustes más complejos).

— Sextus Empiricus el

Aquí hay un experimento en un caso no estándar, el problema de Cauchy de ubicación, donde no estándar significa que no hay un mejor estimador imparcial uniforme. Dejenos considerar $(X_1,\ldots,X_N)$ una muestra de un Cauchy $\mathcal{C}(\mu,1)$ distribución y los siguientes cuatro estimadores invariantes de $\mu$ :

$\hat{\mu}_1= \text{median}(X_1,\ldots,X_N)=X_{(N/2)}$
$\hat{\mu}_2= \text{mean}(X_{(N/4)},\ldots,X_{(3N/4)})=\frac{2}{N}(X_{(N/4)}+\ldots+X_{(3N/4)})$
$\hat{\mu}_3=\mu^\text{MLE}$ que es eficiente
$\hat{\mu}_4=\hat{\mu}_1+\frac{2}{N}\frac{\partial \ell}{\partial \mu}(\hat{\mu}_1)$

Luego, la comparación de los cdfs de los cuatro estimadores conduce a esta imagen, donde los cdfs de $\hat{\mu}_3$ (oro) y $\hat{\mu}_4$ (tomate) son comparables y mejoran $\hat{\mu}_1$ (azul acero), mejorando $\hat{\mu}_2$ (tierra de siena).

Una representación de las diferencias con el cdf empírico del MLE lo hace más claro:

Aquí está el código R correspondiente:

T=1e4
N=11
mlechy=function(x){
  return(optimize(function(theta) -sum(dcauchy(x, 
    location=theta, log=TRUE)),  c(-100,100))$minimum)
}
est=matrix(0,T,4)
for (t in 1:T){
cauc=sort(rcauchy(N))
est[t,1]=median(cauc)
est[t,2]=mean(cauc[4:8])
est[t,3]=mlechy(cauc)
est[t,4]=est[t,1]+(4/N)*sum((cauc-est[t,1])/(1+(cauc-est[t,1])^2))
}

plot(ecdf(est[,1]),col="steelblue",cex=.4,xlim=c(-1,1),main="",ylab="F(x)")
plot(ecdf(est[,2]),add=TRUE,col="sienna",cex=.4)
plot(ecdf(est[,3]),add=TRUE,col="gold",cex=.4)
plot(ecdf(est[,4]),add=TRUE,col="tomato",cex=.4)

— Xi'an
fuente

¿No debería la curva de oro (la diferencia del MLE empírico consigo mismo) ser cero en la gráfica de diferencias.

— Sextus Empiricus el

Lo malo es que cambié los códigos de color: tomate es la diferencia con el cuarto, dorado por la diferencia con Pitman, siena por la diferencia con la media recortada y azul por la diferencia con la mediana.

— Xi'an