¿Por qué no utilizar el teorema de Bayes en el formulario?

Hay muchas preguntas (como esta ) sobre cierta ambigüedad con la fórmula bayesiana en caso continuo.

p (θ | x) = \frac{p (x | θ) \cdot p (θ)}{p (x)}

$p(\theta | x) = \frac{p(x | \theta) \cdot p(\theta)}{p(x)}$

A menudo, la confusión surge del hecho de que la definición de distribución condicional se explica como siendo función de la dada un fijo . $f(variable | parameter)$ $f$ $variable$ $parameter$

Junto con eso, hay un principio de equivalencia que establece que la probabilidad se puede escribir como:

L (θ | x) = p (x | θ)

$L(\theta | x) = p(x | \theta)$

Entonces, ¿por qué no utilizar la regla de Bayes para distribuciones en la siguiente forma:

p (θ | x) = \frac{L (θ | x) \cdot p (θ)}{p (x)}

$p(\theta | x) = \frac{L(\theta | x) \cdot p(\theta)}{p(x)}$

para enfatizar que estamos tratando con funciones de dados los datos observados , y que el término respectivo es verosimilitud (al menos, comenzando con )? $\theta$ $x$ $L$

¿Es una cuestión de tradición o hay algo más fundamental en esta práctica?

— iot
fuente

¿Cuál es el significado de ? Sé esto como una probabilidad. Pero en el caso continuo, no veo de qué probabilidad estás hablando.

p (\cdot)

$p(\cdot)$

— Sextus Empiricus

@MartijnWeterings, las funciones deben ser distribuciones de probabilidad válidas en todos los casos, excepto cuando es "probabilidad" de la forma . ¿Me estoy perdiendo de algo?

p (\cdot)

$p(\cdot)$

p (x | θ)

$p(x|\theta)$

— iot

¿Qué quieres decir con distribución de probabilidad? ¿Acumulativo, densidad, etc.?

— Sextus Empiricus

Puede ser útil dar un paso atrás y darse cuenta de que no hay "variables" en el teorema de Bayes, al menos mientras usa el término. Hay puntos de datos y hay parámetros del modelo. En este sentido, . Invocas una criatura de aspecto posterior que luego llamas probabilidad. Pero no lo es. Así que no estoy seguro de a dónde vas con esto. Y en general que no tiene sentido en el caso en que e e ni siquiera tienen el mismo soporte.

P (m o d e l | d a t a) P (d a t a) = P (d a t a, m o d e l) = P (d a t a | m o d e l) P (m o d e l)

$P(model|data)P(data) = P(data,model)=P(data|model)P(model)$

P (m o d e l | d a t a)

$P(model|data)$

p (x | y) = p (y | x) ⟹ p (x) = p (y)

$p(x|y) = p(y|x) \implies p(x)=p(y)$

x = d a t a

$x=data$

y = m o d e l .

$y=model.$

x

$x$

y

$y$

— Peter Leopold

Compruebe stats.stackexchange.com/a/224299/35989

— Tim

Respuestas:

Hay dos resultados básicos de probabilidad que funcionan en el teorema de Bayes. Una es una forma de reescribir una función de densidad de probabilidad conjunta :

p (x, y) = p (x | y) p (y) .

$p(x,\,y)=p(x\,|\,y)p(y).$

La otra es una fórmula para calcular una función de densidad de probabilidad condicional :

p (y | x) = \frac{p (x, y)}{p (x)} .

$p(y\,|\,x)=\frac{p(x,\,y)}{p(x)}.$

El teorema de Bayes solo une estas dos cosas:

p (θ | x) = \frac{p (x, θ)}{p (x)} = \frac{p (x | θ) p (θ)}{p (x)}

$p(\theta\,|\,x)=\frac{p(x,\,\theta)}{p(x)}=\frac{p(x\,|\,\theta)p(\theta)}{p(x)}$

Entonces, tanto los datos como los parámetros son variables aleatorias con pdf conjunto $x$ $\theta$

p (x, θ) = p (x | θ) p (θ),

$p(x,\,\theta)=p(x\,|\,\theta)p(\theta),$ y eso es lo que aparece en el numerador en el teorema de Bayes. Entonces, escribir la probabilidad como una densidad de probabilidad condicional en lugar de como una función de los parámetros deja en claro la probabilidad básica en juego.

L

$L$

Dicho todo esto, verás que la gente usa, como aquí o aquí .

— jcz
fuente

@iot En las estadísticas clásicas, puede estimar los parámetros al encontrar el

θ

$\theta$ que maximiza

p (x | θ)

$p(x\,|\,\theta)$ como una función de

θ

$\theta$ . Entonces la gente escribirá

L (θ) = p (x | θ)

$L(\theta)=p(x\,|\,\theta)$ e intenta calcular

{\hat{θ}}_{M L E} = \arg max L (θ)

$\hat{\theta}_{MLE}={\arg\max}\,L(\theta)$ . En este caso, no le importa el "estado" de como un pdf condicional sobre . Te importa su estado como una función real de que deseas maximizar con respecto a . Entonces, la notación de estilo es un remanente de esa configuración.

p (x | θ)

$p(x\,|\,\theta)$

x

$x$

θ

$\theta$

θ

$\theta$

L (\cdot)

$L(\cdot)$

— jcz

La función de probabilidad es meramente proporcional a la densidad de muestreo, en el sentido de que tiene para alguna constante (aunque debe tener en cuenta que la probabilidad es una función del parámetro, no de los datos). Si desea utilizar esto en su expresión para el teorema de Bayes, debe incluir la misma constante de escala en el denominador: $L_x(\theta) = k(x) \cdot p(x|\theta)$ $k(x) > 0$

p (θ | x) = \frac{L_{x} (θ) \cdot p (θ)}{k (x) \cdot p (x)} = \frac{L_{x} (θ) \cdot p (θ)}{\int L_{x} (θ) \cdot p (θ) d θ} \propto L_{x} (θ) \cdot p (θ) .

$p(\theta|x) = \frac{L_x(\theta) \cdot p(\theta)}{k(x) \cdot p(x)} = \frac{L_x(\theta) \cdot p(\theta)}{\int L_x(\theta) \cdot p(\theta) \ d \theta} \propto L_x(\theta) \cdot p(\theta).$

Si en cambio usa la fórmula que ha propuesto, terminará con un núcleo de la densidad posterior, pero puede no integrarse en uno (y, por lo tanto, generalmente no es una densidad).

— Ben - Restablece a Monica
fuente

Me gusta su respuesta, pero en la fórmula original con fijo (contexto bayesiano) tampoco tiene una distribución de probabilidad válida , y también es un factor de escala no igual a 1. Entonces, ¿por qué? ¿Crees que no es la unidad en tu explicación?

p (x | θ)

$p(x|\theta)$

x

$x$

p (x)

$p(x)$

k

$k$

— garej

Muy a menudo formulamos la función de probabilidad eliminando partes multiplicativas que no dependen del parámetro de interés. Hacemos esto para simplificar el análisis, evitando la necesidad de realizar un seguimiento de una constante de integración. Por ejemplo, si entonces , eliminando el coeficiente binomial en la distribución binomial. En este caso tenemos , que generalmente no es igual a uno.

p (x | θ) = Bin (x | n, θ)

$p(x|\theta) = \text{Bin}(x|n,\theta)$

L_{x} (θ) = θ^{x} (1 - θ)^{n - x}

$L_x(\theta) = \theta^x (1-\theta)^{n-x}$

k = (\binom{n}{x})

$k = {n \choose x}$

— Ben - Restablece a Monica el

¿Entonces su punto es que existe una convención de que la probabilidad generalmente está libre de constantes innecesarias y que la versión de iot podría ser algo engañosa para los estadísticos?

— garej

Si bien esa es una forma convencional de establecer la probabilidad, el punto aquí es que la función de probabilidad generalmente se define solo hasta la proporcionalidad, por lo que no hay garantía de que en el funcionamiento anterior.

k = 1

$k=1$

— Ben - Restablece a Monica el

Es la primera vez que leo que la probabilidad es proporcional a una densidad. Para mí, esto es solo un tramo y posiblemente sea incorrecto. El problema radica en la terminología superpuesta. No deberíamos llamar a una densidad una probabilidad, en la regla de Bayes, pero seguimos haciéndolo.

— nbro