¿Por qué el estimador James-Stein se llama estimador de "contracción"?

He estado leyendo sobre el estimador James-Stein. Se define, en estas notas , como

\hat{θ} = (1 - \frac{p - 2}{‖ X ‖^{2}}) X

$\hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X$

He leído la prueba pero no entiendo la siguiente declaración:

Geométricamente, el estimador James-Stein reduce cada componente de $X$ hacia el origen ...

¿Qué significa exactamente "reducir cada componente de $X$ hacia el origen"? Estaba pensando en algo como

‖ \hat{θ} - 0 ‖^{2} < ‖ X - 0 ‖^{2},

$\|\hat{\theta} - 0\|^2 < \|X - 0\|^2,$ cual es cierto en este caso siempre que

(p + 2) < ‖ X ‖^{2}

$(p+2) < \|X\|^2$ , ya que

‖ \hat{θ} ‖ = \frac{‖ X ‖^{2} - (p + 2)}{‖ X ‖^{2}} ‖ X ‖ .

$\|\hat{\theta}\| = \frac{\|X\|^2 - (p+2)}{\|X\|^2} \|X\|.$

¿Es esto lo que la gente quiere decir cuando dice "reducir hacia cero" porque en el sentido de la norma $L^2$ , el estimador JS está más cerca de cero que $X$ ?

Actualización a partir del 22/09/2017 : Hoy me di cuenta de que tal vez estoy complicando demasiado las cosas. Parece que la gente realmente quiere decir que una vez que multiplicas $X$ por algo que es menor que $1$ , es decir, el término $\frac{\|X\|^2 - (p + 2)}{\|X\|^2}$ , cada componente de $X$ será más pequeño de lo que solía ser.

— 3x89g2
fuente

Una imagen a veces vale más que mil palabras, así que déjame compartir una contigo. A continuación puede ver una ilustración que proviene de la paradoja de Stein en las estadísticas del artículo de Bradley Efron (1977) . Como puede ver, lo que hace el estimador de Stein es acercar cada uno de los valores al gran promedio. Hace que los valores mayores que el gran promedio sean más pequeños, y los valores más pequeños que el gran promedio, mayores. Por contracción nos referimos a mover los valores hacia el promedio , o hacia cero en algunos casos, como la regresión regularizada, que contrae los parámetros hacia cero.

Por supuesto, no se trata solo de encogerse, sino que lo que Stein (1956) y James y Stein (1961) han demostrado es que el estimador de Stein domina el estimador de máxima verosimilitud en términos de error cuadrado total,

E_{μ} (‖ {\hat{μ}}^{J S} - μ ‖^{2}) < E_{μ} (‖ {\hat{μ}}^{M L E} - μ ‖^{2})

$E_\mu(\| \boldsymbol{\hat\mu}^{JS} - \boldsymbol{\mu} \|^2) < E_\mu(\| \boldsymbol{\hat\mu}^{MLE} - \boldsymbol{\mu} \|^2)$

donde , es el estimador de Stein y , donde ambos estimadores se estiman en la muestra . Las pruebas se proporcionan en los documentos originales y en el apéndice del documento al que hace referencia. En inglés simple, lo que han demostrado es que si realiza simultáneamente conjeturas , entonces, en términos de error al cuadrado total, lo haría mejor reduciéndolos, en comparación con apegarse a sus conjeturas iniciales. $\boldsymbol{\mu} = (\mu_1,\mu_2,\dots,\mu_p)'$ $\hat\mu^{JS}_i$ $\hat\mu^{MLE}_i = x_i$ $x_1,x_2,\dots,x_p$ $p > 2$

Finalmente, el estimador de Stein ciertamente no es el único estimador que da el efecto de contracción. Para otros ejemplos, puede consultar esta entrada de blog o el referido libro de análisis de datos bayesianos de Gelman et al. También puede consultar los hilos sobre regresión regularizada, por ejemplo, ¿Qué problema resuelven los métodos de contracción? o ¿ Cuándo usar los métodos de regularización para la regresión? , para otras aplicaciones prácticas de este efecto.

— Tim
fuente

El artículo parece útil y lo leeré. He actualizado mi pregunta para explicar más mis pensamientos. ¿Podrías echar un vistazo? ¡Gracias!

— 3x89g2

@Tim Creo que el argumento de Misakov es legítimo porque el estimador James-Stein acerca el estimador de a cero más que el MLE. Zero juega un papel central y céntrico en este estimador y se pueden construir estimadores James-Stein que se reducen hacia otros centros o incluso subespacios (como en George, 1986). Por ejemplo, Efron y Morris (1973) se reducen a la media común, que equivale al subespacio diagonal.

θ

$\theta$

— Xi'an