Estimador James-Stein con variaciones desiguales

Cada afirmación que encuentro del estimador de James-Stein supone que las variables aleatorias que se estiman tienen la misma varianza (y unidad).

Pero todos estos ejemplos también mencionan que el estimador JS puede usarse para estimar cantidades sin nada que ver entre sí. El ejemplo de Wikipedia es la velocidad de la luz, el consumo de té en Taiwán y el peso del cerdo en Montana. Pero presumiblemente sus mediciones en estas tres cantidades tendrían diferentes variaciones "verdaderas". ¿Esto presenta un problema?

Esto se relaciona con un problema conceptual más amplio que no entiendo, relacionado con esta pregunta: Estimador James-Stein: ¿Cómo calcularon Efron y Morris en el factor de contracción para su ejemplo de béisbol? $\sigma^2$ Calculamos el factor de contracción siguiente manera: $c$

c = 1 - \frac{(k - 3) σ^{2}}{\sum (y - \bar{y})^{2}}

$c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2}$

Intuitivamente, pensaría que el término es en realidad , diferente para cada cantidad que se estima. Pero la discusión en esa pregunta solo habla sobre el uso de la varianza agrupada ... $\sigma^2$ $\sigma^2_i$

¡Realmente agradecería si alguien pudiera aclarar esta confusión!

estimation shrinkage steins-phenomenon

— exp1orer
fuente

Si la varianza es podemos simplemente multiplicar a la izquierda por para volver al problema de James-Stein. Si es desconocido, pero cada "observación" en el problema es una media muestral calculada sobre la base de observaciones, podemos estimar con algún y esperar que también obtengamos una situación de James-Stein si multiplicamos previamente por lugar.

D = diag (σ_{1}^{2}, \dots, σ_{n}^{2})

$D = \mbox{diag}(\sigma_1^2, \ldots, \sigma_n^2)$

D^{- 1 / 2}

$D^{-1/2}$

D

$D$

m_{i}

$m_i$

D

$D$

\hat{D}

$\hat D$

{\hat{D}}^{- 1 / 2}

$\hat D^{-1/2}$

— chico

@guy: esta es una sugerencia sensata (+1), sin embargo, esto dará como resultado el mismo factor de contracción para todas las variables, mientras que uno desearía reducir las variables de manera diferente, dependiendo de su varianza / incertidumbre. Vea la respuesta que acabo de publicar.

— ameba dice Reinstate Monica

@amoeba claro; No estaba sugiriendo que mi estimador fuera práctico, solo que ilustraba por qué la gente dice las cosas que OP mencionó en su segundo párrafo.

— chico

Esta pregunta fue respondida explícitamente en la serie clásica de artículos sobre el estimador James-Stein en el contexto Empirical Bayes escrito en la década de 1970 por Efron y Morris. Me refiero principalmente a:

Efron y Morris, 1973, Regla de estimación de Stein y sus competidores: un enfoque empírico de Bayes
Efron y Morris, 1975, Análisis de datos con el Estimador de Stein y sus generalizaciones
Efron y Morris, 1977, la paradoja de Stein en estadística

El artículo de 1977 es una exposición no técnica que es una lectura obligada. Allí presentan el ejemplo de bateo de béisbol (que se discute en el hilo al que se vinculó); en este ejemplo, se supone que las varianzas de observación son iguales para todas las variables, y el factor de contracción es constante. $c$

Sin embargo, proceden a dar otro ejemplo, que es estimar las tasas de toxoplasmosis en varias ciudades de El Salvador. En cada ciudad se encuestó a un número diferente de personas, por lo que se puede pensar que las observaciones individuales (tasa de toxoplasmosis en cada ciudad) tienen diferentes variaciones (cuanto menor es el número de personas encuestadas, mayor es la varianza). La intuición es ciertamente que los puntos de datos con baja varianza (baja incertidumbre) no necesitan ser reducidos tan fuertemente como los puntos de datos con alta varianza (alta incertidumbre). El resultado de su análisis se muestra en la siguiente figura, donde se puede ver que esto sucede:

ingrese la descripción de la imagen aquí

Los mismos datos y análisis se presentan también en el artículo mucho más técnico de 1975, en una figura mucho más elegante (aunque desafortunadamente no muestra las variaciones individuales), vea la Sección 3:

ingrese la descripción de la imagen aquí

Allí presentan un tratamiento simplificado empírico de Bayes que va de la siguiente manera. Deje donde es desconocido. En caso de que todos sean idénticos, el tratamiento empírico estándar de Bayes es estimar como , y calcular la media a posteriori de como que no es nada aparte del estimador James-Stein.

X_{i} | θ_{i} \sim N (θ_{i}, D_{i}) θ_{i} \sim N (0, A)

$X_i|\theta_i \sim \mathcal N(\theta_i, D_i)\\ \theta_i \sim \mathcal N(0, A)$

A

$A$

D_{i} = 1

$D_i=1$

1 / (1 + A)

$1/(1+A)$

(k - 2) / \sum X_{j}^{2}

$(k-2)/\sum X_j ^2$

θ_{i}

$\theta_i$

{\hat{θ}}_{i} = (1 - \frac{1}{1 + A}) X_{i} = (1 - \frac{k - 2}{\sum X_{j}^{2}}) X_{i},

$\hat \theta_i = \left(1-\frac{1}{1+A}\right)X_i = \left(1-\frac{k-2}{\sum X_j^2}\right)X_i,$

Si ahora , entonces la regla de actualización de Bayes es y podemos usar el mismo truco empírico de Bayes para estimar , a pesar de que no hay una fórmula cerrada para en este caso (ver artículo). Sin embargo, notan que $D_i \ne 1$

{\hat{θ}}_{i} = (1 - \frac{D_{i}}{D_{i} + A}) X_{i}

$\hat \theta_i = \left(1-\frac{D_i}{D_i+A}\right)X_i$

A

$A$

\hat{A}

$\hat A$

... esta regla no se reduce a Stein cuando todos los son iguales, y en su lugar utilizamos una variante menor de este estimador derivada en [el artículo de 1973] que se reduce a Stein. La regla variante estima un valor diferente para cada ciudad. La diferencia entre las reglas es menor en este caso, pero podría ser importante si fuera más pequeño. $D_j$ $\hat A_i$ $k$

La sección relevante en el artículo de 1973 es la Sección 8, y es un poco más difícil de leer. Curiosamente, tienen un comentario explícito sobre la sugerencia hecha por @guy en los comentarios anteriores:

Una forma muy simple de generalizar la regla de James-Stein para esta situación es definir , de modo que , aplique [la regla original de James-Stein] a los datos transformados y luego vuelva a transformar las coordenadas originales. La regla resultante estima por Esto no es atractivo ya que cada se reduce hacia el origen por el mismo factor. $\tilde x_i = D_i^{-1/2} x_i, \tilde \theta_i = D_i^{-1/2} \theta_i$ $\tilde x_i \sim \mathcal N(\tilde \theta_i, 1)$ $\theta_i$
${\hat{θ}}_{i} = (1 - \frac{k - 2}{\sum [X_{j}^{2} / D_{j}]}) X_{i} .$ $\hat \theta_i = \left(1-\frac{k-2}{\sum [X_j^2 / D_j]}\right)X_i.$ $X_i$

Luego continúan y describen su procedimiento preferido para estimar que debo confesar que no he leído completamente (es un poco complicado). Le sugiero que mire allí si está interesado en los detalles. $\hat A_i$

— ameba dice reinstalar Monica
fuente