¿Por qué se requiere un factor de normalización en el teorema de Bayes?

20

El teorema de Bayes va

P (model | data) = \frac{P (model) \times P (data | model)}{P (data)}

$P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})}$

Todo esta bien. Pero, he leído en alguna parte:

Básicamente, P (datos) no es más que una constante de normalización, es decir, una constante que hace que la densidad posterior se integre a una.

Sabemos que y . $0 \leq P(\textrm{model}) \leq 1$ $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

Por lo tanto, debe estar entre 0 y 1. En tal caso, ¿por qué necesitamos una constante de normalización para que la parte posterior se integre a una? $P(\textrm{model}) \times P(\textrm{data}|\textrm{model})$

— Sreejith Ramakrishnan
fuente

44

Cuando está trabajando con densidades de probabilidad , como se menciona en esta publicación, ya no puede concluir 0 <= P(model) <= 1ni 0 <= P(data/model) <= 1, porque cualquiera de ellos (¡o incluso ambos!) Podría exceder (e incluso ser infinito). Ver stats.stackexchange.com/questions/4220 .

1

$1$

— whuber

1

No es el caso de que porque esta notación vaga representa la probabilidad integrada de los datos, no una probabilidad.

P (data | model) \leq 1

$P(\textrm{data}|\textrm{model})\le 1$

— Xi'an

15

Primero , la integral de "verosimilitud x anterior" no es necesariamente 1 .

No es cierto que si:

$0 \leq P(\textrm{model}) \leq 1$ y $0 \leq P(\textrm{data}|\textrm{model}) \leq 1$

entonces la integral de este producto con respecto al modelo (a los parámetros del modelo, de hecho) es 1.

Demostración. Imagine dos densidades discretas:

P (model) = [0.5, 0.5] (this is called "prior") P (data | model) = [0.80, 0.2] (this is called "likelihood")

$P(\textrm{model}) = [0.5, 0.5] \text{ (this is called "prior")}\\ P(\textrm{data | model}) = [0.80, 0.2] \text{ (this is called "likelihood")}\\$

Si los multiplica a ambos, obtiene: que no es una densidad válida ya que no se integra en uno:

[0.40, 0.25]

$[0.40, 0.25]$

0.40 + 0.25 = 0.65

$0.40 + 0.25 = 0.65$

Entonces, ¿qué debemos hacer para forzar que la integral sea 1? Utilice el factor de normalización, que es:

\sum_{model_params} P (model) P (data | model) = \sum_{model_params} P (model, data) = P (data) = 0.65

$\sum_{\text{model_params}} P(\text{model}) P(\text{data | model}) = \sum_\text{model_params} P(\text{model, data}) = P(\text{data}) = 0.65$

(Perdón por la mala notación. Escribí tres expresiones diferentes para la misma cosa, ya que puedes verlas todas en la literatura)

En segundo lugar , la "probabilidad" puede ser cualquier cosa, e incluso si es una densidad, puede tener valores superiores a 1 .

Como dijo @whuber, estos factores no necesitan estar entre 0 y 1. Necesitan que su integral (o suma) sea 1.

Tercero [extra], los "conjugados" son tus amigos para ayudarte a encontrar la constante de normalización .

A menudo verá: porque el denominador faltante puede ser fácilmente consigue integrando este producto. Tenga en cuenta que esta integración tendrá un resultado bien conocido si el anterior y la probabilidad son conjugados .

P (model | data) \propto P (data | model) P (model)

$P(\textrm{model}|\textrm{data}) \propto P(\textrm{data}|\textrm{model}) P(\text{model})$

— alberto
fuente

+1. Esta es la única respuesta que realmente aborda la pregunta original de por qué se necesita la constante de normalización para que la parte posterior se integre a una . Lo que haga con la posterior más tarde (por ejemplo, inferencia MCMC o cálculo de probabilidades absolutas) es un asunto diferente.

— Pedro Mediano

P (m o d e l) = [0.5, 0.5]

$P(model)=[0.5,0.5]$

σ^{2} = 1

$\sigma^2=1$

μ

$\mu$

P (μ) = [0.5, 0.5]

$P(\mu) = [0.5, 0.5]$

μ

$\mu$

12

La respuesta corta a su pregunta es que sin el denominador, la expresión en el lado derecho es simplemente una probabilidad , no una probabilidad , que solo puede variar de 0 a 1. La "constante de normalización" nos permite obtener la probabilidad de la ocurrencia de un evento, en lugar de simplemente la probabilidad relativa de ese evento en comparación con otro.

— heropup
fuente

8

Ya tienes dos respuestas válidas, pero déjame agregar mis dos centavos.

El teorema de Bayes a menudo se define como:

P (model | data) \propto P (model) \times P (data | model)

$P(\text{model}~ | ~\text{data}) \propto P(\text{model}) \times P(\text{data}~|~\text{model})$

porque la única razón por la que necesita la constante es para que se integre a 1 (vea las respuestas de otros). Esto no es necesario en la mayoría de los enfoques de simulación MCMC para el análisis bayesiano y, por lo tanto, la constante se elimina de la ecuación. Entonces, para la mayoría de las simulaciones ni siquiera es necesario.

Me encanta la descripción de Kruschke : el último cachorro (constante) tiene sueño porque no tiene nada que hacer en la fórmula.

ingrese la descripción de la imagen aquí

Además, algunos, como Andrew Gelman, consideran la constante como "sobrevalorada" y "básicamente sin sentido cuando las personas usan anteriores planos" (consulte la discusión aquí ).

— Tim
fuente

99

+1 a la introducción de cachorros. "Ningún animal resultó dañado al escribir esta respuesta" :)

— alberto