¿Por qué la definición de un estimador consistente es como es? ¿Qué pasa con las definiciones alternativas de consistencia?

Cita de wikipedia:

En estadística, un estimador consistente o estimador asintóticamente consistente es un estimador, una regla para calcular las estimaciones de un parámetro la propiedad de que a medida que el número de puntos de datos utilizados aumenta indefinidamente, la secuencia resultante de estimaciones converge en probabilidad a . $θ^*$ $θ^*$

Para hacer esta afirmación precisa, deje que $\theta^*$ sea el valor del parámetro verdadero que desea estimar y deje que $\hat\theta(S_n)$ sea la regla para estimar este parámetro en función de los datos. Entonces la definición de consistencia de un estimador se puede expresar de la siguiente manera:

lim_{norte \to \infty} PAG r [El | \hat{θ (S_{norte}}) - θ^{*} El | \geq ϵ] = 0 0

$\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0$

mi pregunta parece superficial a primera vista pero es: ¿ por qué se usó la palabra "consistencia / consistencia" para describir este comportamiento de un estimador?

La razón por la que me importa esto es porque para mí, intuitivamente, la palabra consistente significa algo diferente (o al menos me parece diferente, tal vez se pueda demostrar que son iguales). Déjame decirte lo que significa por medio de un ejemplo. Diga "usted" es consistentemente "bueno" (para alguna definición de bien), luego consistente significa que cada vez que tiene la oportunidad de demostrar / demostrar que es bueno, de hecho me demuestra que es bueno, cada vez (o al menos la mayor parte del tiempo).

Vamos a aplicar mi intuición para definir la consistencia de un estimador. Deje que "usted" sea la función informática $\hat{\theta}$ y que "bueno" signifique qué tan lejos está de la estimación verdadera $\theta^*$ (bueno, en el sentido de la norma $l_1$ , por qué no). Entonces una mejor definición de consistencia sería:

\forall n, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

Aunque podría ser una definición de consistencia menos útil, tiene más sentido para mí en la forma en que definiría la consistencia, porque para cualquier conjunto de entrenamiento / muestra que arroje a mi estimador $\hat\theta$ , podré hacer un buen trabajo, es decir, siempre lo haré bien. Soy consciente de que es poco realista hacerlo para todos n (probablemente imposible), pero podemos solucionar esta definición diciendo:

\exists n_{0}, \forall n \geq n_{0}, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

es decir, para n suficientemente grande, nuestro estimador no funcionará peor que (es decir, no más de lejos de la "verdad") de la verdadera ( está tratando de capturar la intuición que necesita al menos cierto número de ejemplos para aprender / estimar cualquier cosa, y una vez que haya alcanzado ese número, su estimador funcionará bien la mayor parte del tiempo si es consistente en la forma en que estamos tratando de definirlo). $\epsilon$ $\epsilon$ $\theta^*$ $n_0$

Sin embargo, la definición anterior es demasiado fuerte, tal vez podríamos permitirnos tener una baja probabilidad de estar lejos de para la mayoría de los conjuntos de entrenamiento de tamaño (es decir, no se requiere esto para todo , pero más de la distribución de o algo así). Por lo tanto, tendremos un error alto muy raramente para la mayoría de los conjuntos de muestra / entrenamiento que tenemos. $\theta^*$ $n \geq n_0$ $S_n$ $S_n$

De todos modos, mi pregunta es, ¿son estas definiciones propuestas de "consistencia" realmente la misma que la definición "oficial" de consistencia, pero la equivalencia es difícil de probar? Si conoce la prueba, ¡compártala! ¿O mi intuición está completamente apagada y hay una razón más profunda para elegir la coherencia de la definición en la forma en que generalmente se define? ¿Por qué la consistencia ("oficial") se define de la manera en que está?

Algunos de mis pensamientos sobre una prueba candidata para algún tipo de equivalencia, o tal vez similitud entre mi noción de consistencia y la noción de consistencia aceptada, podrían ser desentrañar la definición de un límite en la definición oficial de consistencia usando definición de un límite. Sin embargo, no estaba 100% seguro de cómo hacer eso e incluso si lo intentara, la definición oficial de consistencia no parece tener en cuenta hablar de todos los conjuntos potenciales de entrenamiento / muestra. Como creo que son equivalentes, ¿la definición oficial que proporcioné es incompleta (es decir, ¿por qué no habla de los conjuntos de datos que podríamos o de los diferentes conjuntos de datos que podrían generar nuestros conjuntos de muestras)? $(\epsilon, \delta)-$

Una de mis últimas reflexiones es que cualquier definición que proporcionemos también debe ser precisa wrt a cuya distribución de probabilidad hablamos, es o es . Creo que un candidato también debe ser preciso si lo que sea que garantice, si lo garantiza con alguna distribución fija o con todas las distribuciones posibles en los conjuntos de entrenamiento ... ¿verdad? $P_x$ $P_{S_n}$

machine-learning mathematical-statistics consistency

— Charlie Parker
fuente

(+1) Pensamiento creativo. Gracias por compartir esto con nosotros. Creo que podré proporcionar algunas ideas como respuesta aquí.

— Alecos Papadopoulos

La primera definición es de poca utilidad porque requiere que todos los estimadores sean altamente precisos. El segundo no tiene sentido porque intenta controlar una sola variable lógica con múltiples cuantificadores.

n

$n$

— whuber

Considere la segunda declaración tentativa del OP, ligeramente modificada,

\begin{matrix} (1) & \forall θ \in Θ, ϵ > 0 0, δ > 0 0, S_{norte}, \exists {norte}_{0 0} (θ, ϵ, δ) : \forall norte \geq {norte}_{0 0}, {PAG}_{norte} [El | \hat{θ} (S_{norte}) - θ^{*} El | \geq ϵ] < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n, \exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\P_n\big[|{\hat \theta(S_{n}}) - \theta^*|\geq \epsilon \big] < \delta \tag{1}$

Estamos examinando la secuencia acotada en de números reales $[0,1]$

{{PAG}_{norte} [El | \hat{θ} (S_{norte}) - θ^{*} El | \geq ϵ]}

$\big\{ P_n\big[|{\hat\theta(S_{n}}) - \theta^*|\geq \epsilon \big]\big\}$

indexado por . Si esta secuencia tiene un límite como , simplemente , tendremos que $n$ $n\rightarrow \infty$ $p$

\begin{matrix} (2) & \forall θ \in Θ, ϵ > 0 0, δ > 0 0, S_{norte}, \exists {norte}_{0 0} (θ, ϵ, δ) : \forall norte \geq {norte}_{0 0}, El | {PAG}_{norte} [El | \hat{θ (S_{norte}}) - θ^{*} El | \geq ϵ] - pag El | < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n,\,\exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\\Big| P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon \big] -p\Big|< \delta \tag{2}$

Entonces, si asumimos (o requerimos) , esencialmente asumimos (o requerimos) que el límite como existe y es igual a cero, . $(1)$ $n\rightarrow \infty$ $p=0$

Entonces dice "el límite de como es ". Cuál es exactamente la definición actual de consistencia (y sí, cubre "todas las muestras posibles") $(1)$ $P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon\big]$ $n\rightarrow \infty$ $0$

Entonces parece que el OP esencialmente propuso una expresión alternativa para la misma propiedad exacta, y no una propiedad diferente, del estimador.

ADENDA (olvidé la parte del historial)

En sus "Fundamentos de la teoría de la probabilidad" (1933), Kolmogorov menciona en una nota al pie de página que (el concepto de convergencia en la probabilidad)

"... se debe a Bernoulli; su tratamiento completamente general fue introducido por EESlutsky".

(en 1925). El trabajo de Slutsky está en alemán: puede haber incluso un problema de cómo se tradujo la palabra alemana en inglés (o el término utilizado por Bernoulli). Pero no intentes leer demasiado en una palabra.

— Alecos Papadopoulos
fuente