¿Cuál es la intuición detrás de definir la completitud en una estadística como imposible de formar un estimador imparcial de

21

En las estadísticas clásicas, existe la definición de que una estadística de un conjunto de datos se define como completa para un parámetro es imposible formar un estimador imparcial de partir de ella de manera no trivial. Es decir, la única forma de tener para todos es que sea casi con seguridad. $T$ $y_1, \ldots, y_n$ $\theta$ $0$ $E h(T (y )) = 0$ $\theta$ $h$ $0$

¿Hay una intuición detrás de esto? Parece que es una forma bastante mecánica de definir esto, estoy consciente de que esto se ha preguntado antes, pero me preguntaba si había una intuición muy fácil de entender que haría que los estudiantes introductorios tuvieran un tiempo más fácil para digerir el material.

— usuario1398057
fuente

2

Esa es una muy buena pregunta, tuve que investigarla yo mismo. Resulta que la razón por la cual es una definición tan mecánica y no parece intuitivamente significativa para un profesional estándar como yo es que se usa principalmente para probar contribuciones fundamentales en estadística matemática. En particular, mi breve búsqueda reveló que el teorema de Lehmann-Scheffé y el teorema de Basu requieren la completitud de una estadística para mantenerse. Estas son contribuciones de mediados de los años cincuenta. No puedo ofrecerle una explicación intuitiva, pero si realmente desea construir una, tal vez las pruebas asociadas

— Jeremias K

18

Intentaré agregar a la otra respuesta. Primero, la integridad es una condición técnica que se justifica principalmente por los teoremas que la usan. Comencemos con algunos conceptos y teoremas relacionados donde ocurren.

Supongamos que $X=(X_1,X_2,\dotsc,X_n)$ representa un vector de datos de iid, que modelamos como teniendo una distribución $f(x;\theta), \theta \in \Theta$ donde el parámetro $\theta$ gobierna los datos es desconocido. $T=T(X)$ es suficiente si la distribución condicional de $X \mid T$ no depende del parámetro $\theta$ . $V=V(X)$ esauxiliarsi la distribución de $V$ no depende de $\theta$ (dentro de la familia $f(x;\theta)$ ). $U=U(X)$ es unestimador imparcial de cerosi su expectativa es cero, independientemente de $\theta$ . $S=S(X)$ es unaestadística completasi cualquier estimador imparcial de cero basado en $S$ es idénticamente cero, es decir, si $\DeclareMathOperator{\E}{\mathbb{E}} \E g(S)=0 (\text{for all $\theta$})$ luego $g(S)=0$ ae (para todo $\theta$ ).

Ahora, suponga que tiene dos estimadores insesgados diferentes de $\theta$ basados en la estadística suficiente $T$ , $g_1(T), g_2(T)$ . Es decir, en los símbolos

E g_{1} (T) = θ, E g_{2} (T) = θ

$\E g_1(T)=\theta ,\\ \E g_2(T)=\theta$ y

P (g_{1} (T) \neq g_{2} (T)) > 0

$\DeclareMathOperator{\P}{\mathbb{P}} \P(g_1(T) \not= g_2(T) ) > 0$ (para todos

θ

$\theta$ ). Entonces

g_{1} (T) - g_{2} (T)

$g_1(T)-g_2(T)$ es un estimador imparcial de cero, que no es idénticamente cero, lo que demuestra que

T

$T$ no está completo. Entonces, la integridad de una estadística suficiente

T

$T$ nos da que existe un solo estimador imparcial único de

θ

$\theta$ basado en

T

$T$ . Eso ya está muy cerca del teorema de Lehmann-Scheffé.

Veamos algunos ejemplos. Supongamos que $X_1, \dotsc, X_n$ ahora son uniformes en el intervalo $(\theta, \theta+1)$ . Podemos mostrar que ( $X_{(1)} < X_{(2)} < \dotsm < X_{(n)}$ es la estadística de orden) el par $(X_{(1)}, X_{(n)})$ es suficiente, pero no está completo, porque el diferencia $X_{(n)}-X_{(1)}$ es auxiliar, podemos calcular su expectativa, dejar que sea $c$ (que es una función de $n$ solamente), y luego $X_{(n)}-X_{(1)} -c$ será un estimador imparcial de cero que no es idénticamente cero. Entonces, nuestra estadística suficiente, en este caso, no es completa y suficiente. Y podemos ver lo que eso significa: existen funciones de la estadística suficiente que no son informativas sobre $\theta$ (en el contexto del modelo). Esto no puede suceder con una estadística completa suficiente; es, en cierto sentido, máximamente informativo, ya que ninguna de sus funciones no es informativa. Por otro lado, si hay alguna función de la estadística mínimamente suficiente que tiene la expectativa cero, que podría verse como un término de ruido , los términos de perturbación / ruido en los modelos tienen una expectativa de cero. Entonces podríamos decir que las estadísticas suficientes no completas contienen algo de ruido .

Mire nuevamente el rango $R=X_{(n)}-X_{(1)}$ en este ejemplo. Como su distribución no depende de $\theta$ , por sí sola no contiene ninguna información sobre $\theta$ . Pero, junto con la estadística suficiente, ¡lo hace! ¿Cómo? Mire el caso en el que se observa $R=1$ Luego, en el contexto de nuestro modelo (conocido como verdadero), ¡tenemos un conocimiento perfecto de $\theta$ ! A saber, podemos decir con certeza que $\theta = X_{(1)}$ . Puede verificar que cualquier otro valor para $\theta$ luego lleva a que $X_{(1)}$ o $X_{(n)}$ sean una observación imposible, según el modelo asumido. Por otro lado, si observamos $R=0.1$ , entonces el rango de valores posibles para $\theta$ es bastante grande (ejercicio ...).

En este sentido, la estadística auxiliar $R$ contiene cierta información sobre la precisión con la que podemos estimar $\theta$ base a estos datos y modelo. En este ejemplo, y en otros, la estadística auxiliar $R$ "asume el papel del tamaño de la muestra". Por lo general, los intervalos de confianza y tal necesitan el tamaño de muestra $n$ , pero en este ejemplo, podemos hacer un intervalo de confianza condicional que se calcula usando solo $R$ , no $n$ (ejercicio). Esta fue una idea de Fisher, esa inferencia debería estar condicionada a alguna estadística auxiliar.

Ahora, el teorema de Basu: si $T$ es lo suficientemente completo, entonces es independiente de cualquier estadística auxiliar. Es decir, la inferencia basada en una estadística completa suficiente es más simple, ya que no necesitamos considerar la inferencia condicional. El condicionamiento sobre una estadística que es independiente de $T$ no cambia nada, por supuesto.

Luego, un último ejemplo para dar más intuición. Cambie nuestro ejemplo de distribución uniforme a una distribución uniforme en el intervalo $(\theta_1, \theta_2)$ (con $\theta_1<\theta_2$ ). En este caso, la estadística $(X_{(1)}, X_{(n)})$ es completa y suficiente. ¿Qué cambió? Podemos ver que la integridad es realmente una propiedad del modelo.. En el primer caso, teníamos un espacio de parámetros restringido. Esta restricción destruyó la integridad al introducir relaciones en las estadísticas del pedido. ¡Al eliminar esta restricción, obtenemos integridad! Entonces, en cierto sentido, la falta de integridad significa que el espacio de parámetros no es lo suficientemente grande, y al ampliarlo podemos esperar restaurar la integridad (y, por lo tanto, una inferencia más fácil).

Algunos otros ejemplos donde la falta de integridad está causada por restricciones en el espacio de parámetros,

vea mi respuesta a: ¿Qué tipo de información es la información de Fisher?
Sea $X_1, \dotsc, X_n$ iid $\mathcal{Cauchy}(\theta,\sigma)$ (un modelo de escala de ubicación). Luego, las estadísticas del pedido son suficientes pero no completas. Pero ahora ampliar este modelo a un modelo totalmente paramétrico, todavía IID sino de alguna distribución totalmente especificada $F$ . Entonces las estadísticas del pedido son suficientes y completas.
Para familias exponenciales con espacio de parámetros canónicos (es decir, lo más grande posible), también se completa la estadística mínima suficiente. Pero en muchos casos, la introducción de restricciones en el espacio de parámetros, como ocurre con las familias exponenciales curvas , destruye la integridad.

Un artículo muy relevante es Una interpretación de la integridad y el teorema de Basu.

— kjetil b halvorsen
fuente

7

Alguna intuición puede estar disponible a partir de la teoría de los mejores estimadores imparciales (varianza mínima).

Si entonces es el mejor estimador imparcial de si no está correlacionado con todos los estimadores imparciales de cero. $E_\theta W=\tau(\theta)$ $W$ $\tau(\theta)$ $W$

Prueba : Sea un estimador imparcial no correlacionado con todos los estimadores imparciales de cero. Sea otro estimador tal que . Escribe . Por supuesto, $W$ $W'$ $E_\theta W'=E_\theta W=\tau(\theta)$ $W'=W+(W'-W)$ . Por lo tanto, para cualquier , . $Var_\theta W'=Var_\theta W+Var_\theta (W'-W)$ $W'$ $Var_\theta W'\geq Var_\theta W$

Ahora suponga que es un mejor estimador imparcial. Deje que haya algún otro estimador con . también es imparcial para . Tenemos $W$ $U$ $E_\theta U=0$ $\phi_a:=W+aU$ $\tau(\theta)$ Si hubiera un tal que , obtendríamos para

V a r_{θ} ϕ_{a} := V a r_{θ} W + 2 a C o v_{θ} (W, U) + a^{2} V a r_{θ} U .

$Var_\theta \phi_a:=Var_\theta W+2aCov_\theta(W,U)+a^2Var_\theta U.$

θ_{0} \in Θ

$\theta_0\in\Theta$

C o v_{θ_{0}} (W, U) < 0

$Cov_{\theta_0}(W,U)<0$

V a r_{θ} ϕ_{a} < V a r_{θ} W

$Var_\theta \phi_a<Var_\theta W$

.

podría ser el mejor estimador imparcial. QED

a \in (0, - 2 C o v_{θ_{0}} (W, U) / V a r_{θ_{0}} U)

$a\in(0,-2Cov_{\theta_0}(W,U)/Var_{\theta_0} U)$

W

$W$

Intuitivamente, el resultado dice que si un estimador es óptimo, no debe ser posible mejorarlo simplemente agregando algo de ruido, en el sentido de combinarlo con un estimador que es solo cero en promedio (siendo un estimador imparcial de cero )

Desafortunadamente, es difícil caracterizar todos los estimadores imparciales de cero. La situación se vuelve mucho más simple si el cero mismo es el único estimador imparcial de cero, ya que cualquier estadística satisface . La integridad describe tal situación. $W$ $Cov_\theta(W,0)=0$

— Christoph Hanck
fuente