MAP es una solución para

10

Me he encontrado con estas diapositivas (diapositiva 16 y 17) en uno de los cursos en línea. El instructor intentaba explicar cómo la Estimación posterior máxima (MAP) es en realidad la solución , donde es el parámetro verdadero $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ $\theta^{*}$

¿Alguien puede explicar cómo sigue esto?

Editar: se agregaron las diapositivas, en caso de que el enlace se rompa.

— Honeybadger
fuente

3

Al revisar las diapositivas que compartió, me parece que la idea es explicar cómo se puede usar la estimación MAP para estimar diferentes propiedades de la parte posterior, como la media, la moda y la mediana. Intentaré explicar esto en el contexto de los Estimadores Bayesianos Generales tal como se presentan en el libro de Stephen M. Kay, Fundamentos del procesamiento estadístico de señales .

Comencemos considerando tres tipos de riesgo (es decir, funciones de costo) asociados con la estimación del parámetro : $\theta$

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; de lo contrario $C(e)=1$

donde, , en el que es el valor estimado y es el parámetro verdadero. En la estimación bayesiana, el objetivo es minimizar el riesgo esperado, es decir: $e = \theta - \hat{\theta}$ $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

Como solo nos preocupamos por , nos centraremos en la integral interna . $\theta$ $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$

Ahora, dependiendo de qué elijamos, el estimador nos dará una propiedad diferente de la posterior. Por ejemplo, si elegimos el primer caso, , la minimización de para , es la media. Dado que su pregunta es con respecto a la función del indicador , abordaré el tercer riesgo mencionado anteriormente (que si lo piensa para es equivalente para usar el indicador). $C(e)$ $C(e) = e^2$ $\theta$ $\int_\theta C(e)p(\theta|X)d\theta$ $I[\hat{\theta}\ne \theta]$ $\delta\rightarrow 0$

Para el caso 3 anterior:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

que para se minimiza cuando corresponde al modo de la posterior. $\delta \rightarrow 0$ $\hat{\theta}$

— idnavid
fuente

2

Gracias por la maravillosa explicación. Además, los futuros lectores pueden leer más o menos lo mismo en un libro de texto similar: Capítulo 5 de Machine_Learning a Probabilistic Perspective por Kevin Murphy

— honeybadger

¿Podría especificar los detalles de este argumento limitante en ? ¿Te refieres al límite del procedimiento cuando va a cero o al límite de la pérdida posterior?

δ

$\delta$

δ

$\delta$

— Xi'an

Me refiero al límite de la expectativa .

E [C (e)]

$E[C(e)]$

— idnavid

10

En el caso específico, el espacio de parámetros es finito o infinitamente contable la pérdida posterior asociada con la pérdida del indicador es igual a la probabilidad de estar equivocado y se minimiza cuando la probabilidad posterior de ser correcta se maximiza. Esto significa que es el modo de la distribución posterior o el MAP. $\Theta$

Θ = {θ_{1}, θ_{2}, \dots}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

Sin embargo, esta asociación de MAP y pérdida es un "teorema popular" en el sentido de que es incorrecta en la mayoría de las configuraciones, es decir, no se cumple para espacios de parámetros continuos donde para todos los y entra en conflicto con los resultados de Druihlet y Marin (BA, 2007), quienes señalan que el MAP depende en última instancia de la elección de la medida dominante. (Aunque la medida de Lebesgue se elige implícitamente como predeterminada). $0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

Por ejemplo, Evans y Jang publicaron un artículo de arXiv en 2011 en el que discuten la conexión entre el MAP, los estimadores de relativa menor sorpresa (o máxima probabilidad de perfil) y las funciones de pérdida. El núcleo del asunto es que ni los estimadores MAP ni los MLE están realmente justificados por un enfoque teórico de decisión, al menos en un espacio de parámetros continuo. Y que la medida dominante [arbitrariamente] elegida en el espacio de parámetros impacta el valor del MAP, como lo demostraron Druihlet y Marin en 2007. Comienzan en el caso finito con la función de pérdida

L (θ, d) = I {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$ donde consideran la estimación de la transformación Ψ (θ) por d, inversamente ponderada por el marginal anterior en esta transformación. En el caso especial de la transformación de identidad, esta función de pérdida conduce al MLE como estimador de Bayes. En el caso general, el estimador de Bayes es el estimador de máxima probabilidad de perfil (LRSE). Sin embargo, esta función de pérdida no se generaliza a espacios de parámetros infinitamente contables (y obviamente continuos) y en tales entornos los autores solo pueden proporcionar LRSEs como límites de los procedimientos de Bayes. La función de pérdida adoptada en el caso contable es, por ejemplo,

L (θ, d) = I {Ψ (θ) \neq d} / max {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$ con el límite disminuyendo a cero. En el caso continuo, el indicador ya no funciona, por lo tanto, la elección realizada por los autores es discretizar el espacio Ψ (Θ) mediante una elección específica de una partición de bolas cuyos diámetros λ van a cero. En el espíritu de Druihlet y Marin, esta elección depende de una métrica (y otras condiciones de regularidad). Además, el LRSE en sí depende de la versión elegida para las densidades (si no es la medida dominante), a menos que uno impone en todas partes la igualdad de Bayes todas partes, cuando y

max_{ψ} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$ en el espíritu de nuestro papel de paradoja Savage-Dickey .

Robert Bassett y Julio Deride presentaron un artículo en 2016 sobre la posición de los MAP dentro de la teoría de la decisión bayesiana.

"... proporcionamos un contraejemplo a la noción comúnmente aceptada de estimadores MAP como límite de estimadores Bayes que tienen una pérdida de 0-1".

¡Los autores mencionan mi libro The Bayesian Choice que declara esta propiedad sin más precauciones y estoy completamente de acuerdo en ser descuidado a este respecto! La dificultad radica en que el límite de los maximizadores no es necesariamente el maximizador del límite. El artículo incluye un ejemplo a este efecto, con un previo como el anterior, asociado con una distribución de muestreo que no depende del parámetro. Las condiciones suficientes propuestas allí son que la densidad posterior es casi seguramente apropiada o cuasicóncava.

Vea también una caracterización alternativa de los estimadores MAP por Burger y Lucka como estimadores Bayes adecuados bajo otro tipo de función de pérdida , aunque sea bastante artificial. Los autores de este artículo presentado comienzan con una distancia basada en lo anterior; llamada la distancia de Bregman, que puede ser la distancia cuadrática o la entropía dependiendo de la anterior. Definir una función de pérdida que es una mezcla de esta distancia de Bregman y de la distancia cuadrática

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ produce el MAP como el estimador de Bayes. Todavía podría preguntarse acerca de la medida dominante, pero tanto la función de pérdida como el estimador resultante dependen claramente de la elección de la medida dominante ... (La pérdida depende de lo anterior, pero esto no es un inconveniente per se).

— Xi'an
fuente

1

Daré el resumen del texto mencionado sobre este problema en el Capítulo 5, Estadísticas bayesianas, Aprendizaje automático: una perspectiva probabilística, por Murphy .

Digamos que observamos algunos datos , y queremos comentar sobre la distribución posterior de los parámetros . Ahora, la estimación puntual del modo de esta distribución posterior, que es ampliamente conocida como MAP, tiene ciertos inconvenientes. $X$ $p(\theta|X)$

A diferencia de la media o la mediana, este es un punto "atípico", en el sentido de que no considera todos los otros puntos mientras se estima. En el caso de estimar la media / mediana, tomamos todos los otros puntos en consideración.

Entonces, como se esperaba, en distribuciones posteriores muy sesgadas, el MAP (y, por extensión, el MLE) no representa realmente el posterior.

Entonces, ¿cómo resumimos un posterior utilizando una estimación puntual como Media / Mediana / Modo?

Aquí es donde la gente usa la teoría de la decisión: esencialmente una función de pérdida que es la pérdida en la que uno incurre si la verdad es y es nuestra estimación. Podemos elegir una variedad de funciones de pérdida y nuestro objetivo aquí es minimizar el valor esperado de la función de pérdida. $L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

Si la función de pérdida está configurada como , una función de indicador para todos los momentos en que NO PODEMOS estimar la verdad, luego minimizar el valor esperado de la función de pérdida wrt es igual a maximizar esta función wrt . A partir de esto, es intuitivo adivinar que el modo Posterior minimiza el valor esperado de la función de pérdida. Los detalles de este cálculo se pueden ver en la respuesta anterior . $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$

— Honeybadger
fuente