¿Un estimador de Bayes requiere que el parámetro verdadero sea una posible variante del anterior?

9

Esto podría ser un poco de una cuestión filosófica, pero aquí vamos: En teoría de la decisión, el riesgo de un estimador de Bayes para se define con respecto a una distribución a priori en . $\hat\theta(x)$ $\theta\in\Theta$ $\pi$ $\Theta$

Ahora, por un lado, para que el verdadero haya generado los datos (es decir, "existe"), debe ser una posible variante bajo , por ejemplo, tener probabilidad no nula, densidad no nula, etc .; por otro lado, no se conoce, de ahí la elección de un previo, por lo que no tenemos garantía de que el verdadero sea una variante posible bajo el que elegimos. $\theta$ $\theta$ $\pi$ $\theta$ $\theta$ $\pi$

Ahora, me parece que de alguna manera tenemos que seleccionar modo que sea una posible variante. De lo contrario, ciertos teoremas no serían válidos. Por ejemplo, la estimación minimax no sería una estimación de Bayes para un prior menos favorable, ya que podríamos hacer que ese prior sea arbitrariamente malo excluyendo una gran región alrededor e incluyendo de su dominio. Sin embargo, garantizar que está realmente en el dominio puede ser difícil de lograr. $\pi$ $\theta$ $\theta$ $\theta$

Entonces mis preguntas son:

¿Se supone generalmente que el real es una posible variante de ? $\theta$ $\pi$
¿Se puede garantizar esto?
¿Pueden los casos que violan esto al menos ser detectados de alguna manera, por lo que uno no confía en teoremas como minimax cuando las condiciones no se cumplen?
Si no es necesario, ¿por qué los resultados estándar en la teoría de la decisión son válidos?

— usuario32849
fuente

6

Muy buena pregunta! De hecho, tendría sentido que una distribución previa "buena" proporcione probabilidad positiva o valor de densidad positiva al parámetro "verdadero" , pero desde una perspectiva puramente decisiva este no tiene que ser el caso. Un simple contraejemplo a esta "intuición" de que debería ser necesario, cuando es la densidad anterior y es el valor "verdadero" del parámetro, es el resultado de minimaxidad brillante de Casella y Strawderman (1981): al estimar una media normal basada en una sola observación $\theta_0$

π (θ_{0}) > 0

$\pi(\theta_0)>0$

π (\cdot)

$\pi(\cdot)$

θ_{0}

$\theta_0$

μ

$\mu$

con la restricción adicional de que

, si

es lo suficientemente pequeño,

específicamente, el estimador minimax corresponde a un uniforme (menos favorable) anterior en

, lo que significa que

da el mismo peso a

y

(y ninguno a ninguno otro valor de la media

)

x \sim N (μ, 1)

$x\sim{\cal N}(\mu,1)$

| μ | < ρ

$|\mu|<\rho$

ρ

$\rho$

ρ \leq 1.0567

$\rho\le 1.0567$

{- ρ, ρ}

$\{-\rho,\rho\}$

π

$\pi$

- ρ

$-\rho$

ρ

$\rho$

μ

$\mu$

Cuando

aumenta, el anterior menos favorable ve crecer su soporte, pero sigue siendo un conjunto finito de valores posibles. Sin embargo, la expectativa posterior,

, puede tomar cualquier valor en

.

π (θ) = \frac{1}{2} δ_{- ρ} (θ) + \frac{1}{2} δ_{ρ} (θ)

$\pi(\theta)=\frac{1}{2}\delta_{-\rho}(\theta)+ \frac{1}{2}\delta_{\rho}(\theta)$

ρ

$\rho$

E [μ | x]

$\mathbb{E}[\mu|x]$

(- ρ, ρ)

$(-\rho,\rho)$

El núcleo de la discusión (ver comentarios) puede ser que, si el estimador de Bayes se limitara a ser un punto en el soporte de , sus propiedades serían bastante diferentes. $\pi(\cdot)$

Del mismo modo, cuando se consideran estimadores admisibles, los estimadores Bayes asociados con un previo adecuado en un conjunto compacto generalmente son admisibles, aunque tienen un soporte restringido.

\int_{Θ} L (θ, δ) π (θ | x) d θ

$\int_\Theta L(\theta,\delta) \pi(\theta|x)\text{d}\theta$

\int_{X} \int_{Θ} L (θ, δ) π (θ) f (x | θ) d θ d x

$\int_{\cal X}\int_\Theta L(\theta,\delta) \pi(\theta)f(x|\theta)\text{d}\theta\text{d}x$

θ_{0}

$\theta_0$

{\hat{θ}}^{π} (x) = \int_{Θ} θ π (θ | x) d θ

$\hat{\theta}^\pi(x)=\int_\Theta \theta\pi(\theta|x)\text{d}\theta$

L_{2}

$L_2$

π

$\pi$

Como un aparte, al leer

para que el verdadero θ haya generado los datos (es decir, "existe"), θ debe ser una posible variante bajo π, por ejemplo, tener probabilidad distinta de cero, densidad distinta de cero

$\theta_0$ $\pi$ $x$ $f(x|\theta_0)$ $\pi$ ${\mathscr A}$ ${\mathscr A}$ $\hat{\theta}^\pi$

— Xi'an
fuente

μ

$\mu$

[0, + \infty)

$[0,+\infty)$

μ

$\mu$

1

Por lo general, cf Berger (1985), un previo menos favorable corresponde al riesgo minimax.

— Xi'an

1

θ \sim π (θ)

$\theta \sim \pi(\theta)$

Θ = [- m, m]

$\Theta=[-m, m]$

Θ

$\Theta$

1

El riesgo integrado no involucra el parámetro "verdadero" en ninguna etapa. Entonces, en este sentido, no importa.

— Xi'an

1

Entonces, en cierto sentido, el riesgo captura la pérdida que esperamos, no la que realmente experimentamos. Esto ha sido tremendamente útil, ¡muchas gracias!

— user32849

8

$\theta$
$(-\infty, \infty)$ $[0,1]$ $(0, \infty)$
Si su parte posterior está "apilada" en un borde del dominio del anterior, y su anterior impone una restricción innecesaria en el dominio en ese mismo borde, este es un indicador ad-hoc de que la restricción innecesaria puede estar causándole problemas. Pero esto solo debería ocurrir si a) ha construido un prior cuya forma se basa principalmente en la conveniencia en lugar del conocimiento previo real, yb) la forma inducida por la conveniencia del prior restringe el dominio del parámetro a un subconjunto de lo que es " "dominio natural" puede considerarse como.

Un ejemplo de esto es una práctica antigua, con suerte obsoleta, de delimitar lo anterior en un término de variación ligeramente alejado de cero para evitar posibles dificultades computacionales. Si el valor verdadero de la varianza está entre el límite y el cero, bueno ... pero en realidad pensar en los valores potenciales de la varianza dados los datos, o (por ejemplo) poner el previo en el registro de la varianza, permitirá para evitar este problema, y una inteligencia leve similar debería permitirle evitar las limitaciones previas de dominio en general.

Respondido por el n. ° 1.

— jbowman
fuente

2

En caso de que quien rechace la respuesta regrese, ¿por qué "no es útil"?

— jbowman

3

$\theta$ $-\infty$ $\infty$

$\theta$

— Tim
fuente