Probabilidad vs. Probabilidad

Tengo dificultades con las probabilidades . Entiendo el teorema de Bayes

p (A | B, H) = \frac{p (B | A, H) p (A | H)}{p (B | H)}

$p(A|B, \mathcal{H}) = \frac{p(B|A, \mathcal{H}) p(A|\mathcal{H})}{p(B|\mathcal{H})}$

que puede deducirse directamente de la solicitud $p(A,B) = p(B) \cdot p(A|B) = p (A) p(B|A) = p(B,A)$ . Así, en mi interpretación, el $p(\cdot)$ Las funciones en el teorema de Bayes son de alguna manera todas las probabilidades, ya sean marginales o condicionales. Así que realmente pensé que la probabilidad como concepto era más una visión frecuentista de la probabilidad inversa.

Sin embargo, ahora he visto repetidamente declaraciones en los libros bayesianistas que dicen que la probabilidad no es una distribución de probabilidad. Al leer el libro de MacKay ayer, me topé con la siguiente declaración

"[...] es importante tener en cuenta que los términos probabilidad y probabilidad no son sinónimos. La cantidad $P(n_b|u,N)$ es una función de ambos $n_B$ y $u$ . Para fijo $u$ , $P(n_b|u,N)$ define una probabilidad sobre $n_B$ , para fijo $n_B$ , $P(n_B|u,N)$ define la similitud de $u$ ".

Entiendo esto de la siguiente manera: $p(A|B)$ es una probabilidad de $A$ bajo dado $B$ , por lo tanto una función $\text{probability} : \mathcal{A}\to [0,1]$ . Pero considerando un valor dado $a \in A$ y evaluando $p(A=a|B)$ Dependencia de diferentes $b\in\mathcal{B}$ estamos usando una función diferente $L : \mathcal{B}\to[0,1]$ .
¿Es correcta esta interpretación?
¿Se puede decir entonces que los métodos de máxima verosimilitud podrían estar motivados por el teorema bayesiano, donde se elige el anterior como constante?

probability likelihood

— wirrbel
fuente

Como elemento de respuesta, le aconsejo la respuesta con enlaces de Stephane Laurent en mathoverflow.net/questions/10971/… . Espero eso ayude.

— peuhp

Creo que quizás la mejor manera de explicar la noción de probabilidad es considerar un ejemplo concreto. Supongamos que tengo una muestra de observaciones IID extraídas de una distribución de Bernoulli con probabilidad desconocida de éxito $p$ : $X_i \sim {\rm Bernoulli}(p)$ , $i = 1, \ldots, n$ , entonces la función de masa de probabilidad conjunta de la muestra es Esta expresión también caracteriza la probabilidad de , dada una muestra observada : Pero si pensamos en como una variable aleatoria, esta probabilidad no es una densidad: Sin embargo, es proporcional a una densidad de probabilidad, por lo que decimos que es una probabilidad de

Pr [X = x ∣ p] = \prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} .

$\Pr[{\boldsymbol X} = \boldsymbol x \mid p] = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$

p

$p$

x = (x_{1}, \dots, x_{n})

$\boldsymbol x = (x_1, \ldots, x_n)$

L (p ∣ x) = \prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} .

$L(p \mid \boldsymbol x) = \prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}.$

p

$p$

\int_{p = 0}^{1} L (p ∣ x) d p \neq 1.

$\int_{p=0}^1 L(p \mid \boldsymbol x) \, dp \ne 1.$

p

$p$ siendo un valor particular dada la muestra, representa, en cierto sentido, la plausibilidad relativa de siendo algún valor para las observaciones que hicimos.

p

$p$

Por ejemplo, suponga que y la muestra fue . Intuitivamente, concluiríamos que es más probable que esté más cerca de que de , porque observamos más. De hecho, tenemos Si trazamos esta función en , podemos ver cómo la probabilidad confirma nuestra intuición. Por supuesto, no sabemos el verdadero valor de - podría haber sido lugar de , pero la función de probabilidad nos dice que el primero es mucho menos probable que el segundo. Pero si queremos determinar una probabilidad $n = 5$ $\boldsymbol x = (1, 1, 0, 1, 1)$ $p$ $1$ $0$

L (p ∣ x) = p^{4} (1 - p) .

$L(p \mid \boldsymbol x) = p^4 (1 - p).$

p \in [0, 1]

$p \in [0,1]$

p

$p$

p = 0.25

$p = 0.25$

p = 0.8

$p = 0.8$ que encuentra en cierto intervalo, tenemos que normalizar la probabilidad: dado que , se deduce que en Para obtener una densidad posterior para , debemos multiplicar por : De hecho, este posterior es una distribución beta con parámetros . Ahora las áreas bajo la densidad corresponden a probabilidades.

p

$p$

\int_{p = 0}^{1} p^{4} (1 - p) d p = \frac{1}{30}

$\int_{p=0}^1 p^4(1-p) \, dp = \frac{1}{30}$

p

$p$

30

$30$

f_{p} (p ∣ x) = 30 p^{4} (1 - p) .

$f_p(p \mid \boldsymbol x) = 30p^4(1-p).$

a = 5, b = 2

$a = 5, b = 2$

Entonces, lo que esencialmente hemos hecho aquí es aplicar la regla de Bayes: Aquí, es una distribución previa del parámetro (s) , el numerador es la probabilidad que es también la distribución conjunta de

f_{Θ} (θ ∣ x) = \frac{f_{X} (x ∣ θ) f_{Θ} (θ)}{f_{X} (x)} .

$f_{\boldsymbol \Theta}(\boldsymbol \theta \mid \boldsymbol x) = \frac{f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta)}{f_{\boldsymbol X}(\boldsymbol x)}.$

f_{Θ} (θ)

$f_{\boldsymbol \Theta}(\boldsymbol \theta)$

θ

$\boldsymbol \theta$

L (θ ∣ x) = f_{X} (x ∣ θ) f_{Θ} (θ) = f_{X, Θ} (x, θ)

$L(\boldsymbol \theta \mid \boldsymbol x) = f_{\boldsymbol X}(\boldsymbol x \mid \boldsymbol \theta) f_{\boldsymbol \Theta}(\boldsymbol \theta) = f_{\boldsymbol X, \boldsymbol \Theta}(\boldsymbol x, \boldsymbol \theta)$

X, Θ

$\boldsymbol X, \boldsymbol \Theta$ , y el denominador es la densidad marginal (incondicional) de , obtenida integrando la distribución conjunta con respecto a para encontrar la constante de normalización que hace que la probabilidad sea una densidad de probabilidad con Respeto a los parámetros. En nuestro ejemplo numérico, implícitamente tomamos lo anterior para que sea uniforme en . Se puede demostrar que, para una muestra de Bernoulli, si el anterior es , el posterior para también es Beta, pero con los parámetros ,

X

$\boldsymbol X$

θ

$\boldsymbol \theta$

f_{Θ}

$f_{\boldsymbol \Theta}$

[0, 1]

$[0,1]$

B e t a (a, b)

${\rm Beta}(a,b)$

f_{Θ}

$f_{\boldsymbol \Theta}$

a^{*} = a + \sum x_{i}

$a^* = a+\sum x_i$

b^{*} = b + n - \sum x_{i}

$b^* = b + n - \sum x_i$ . Llamamos a dicho conjugado previo (y nos referimos a esto como un par conjugado Bernoulli-Beta).

— heropup
fuente