Creo que quizás la mejor manera de explicar la noción de probabilidad es considerar un ejemplo concreto. Supongamos que tengo una muestra de observaciones IID extraídas de una distribución de Bernoulli con probabilidad desconocida de éxitop: Xi∼Bernoulli(p), i=1,…,n, entonces la función de masa de probabilidad conjunta de la muestra es Esta expresión también caracteriza la probabilidad de , dada una muestra observada : Pero si pensamos en como una variable aleatoria, esta probabilidad no es una densidad: Sin embargo, es proporcional a una densidad de probabilidad, por lo que decimos que es una probabilidad de
Pr[X=x∣p]=∏i=1npxi(1−p)1−xi.
px=(x1,…,xn)L(p∣x)=∏i=1npxi(1−p)1−xi.
p∫1p=0L(p∣x)dp≠1.
psiendo un valor particular dada la muestra, representa, en cierto sentido, la plausibilidad relativa de siendo algún valor para las observaciones que hicimos.
p
Por ejemplo, suponga que y la muestra fue . Intuitivamente, concluiríamos que es más probable que esté más cerca de que de , porque observamos más. De hecho, tenemos Si trazamos esta función en , podemos ver cómo la probabilidad confirma nuestra intuición. Por supuesto, no sabemos el verdadero valor de - podría haber sido lugar de , pero la función de probabilidad nos dice que el primero es mucho menos probable que el segundo. Pero si queremos determinar una probabilidadn=5x=(1,1,0,1,1)p10
L(p∣x)=p4(1−p).
p∈[0,1]pp=0.25p=0.8que encuentra en cierto intervalo, tenemos que normalizar la probabilidad: dado que , se deduce que en Para obtener una
densidad posterior para , debemos multiplicar por : De hecho, este posterior es una distribución beta con parámetros . Ahora las áreas bajo la densidad corresponden a probabilidades.
p∫1p=0p4(1−p)dp=130p30fp(p∣x)=30p4(1−p).
a=5,b=2
Entonces, lo que esencialmente hemos hecho aquí es aplicar la regla de Bayes: Aquí, es una distribución previa del parámetro (s) , el numerador es la probabilidad que es también la distribución conjunta de
fΘ(θ∣x)=fX(x∣θ)fΘ(θ)fX(x).
fΘ(θ)θL(θ∣x)=fX(x∣θ)fΘ(θ)=fX,Θ(x,θ)X,Θ , y el denominador es la densidad marginal (incondicional) de , obtenida integrando la distribución conjunta con respecto a para encontrar la constante de normalización que hace que la probabilidad sea una densidad de probabilidad con Respeto a los parámetros. En nuestro ejemplo numérico, implícitamente tomamos lo anterior para que sea uniforme en . Se puede demostrar que, para una muestra de Bernoulli, si el anterior es , el posterior para también es Beta, pero con los parámetros ,
XθfΘ[0,1]Beta(a,b)fΘa∗=a+∑xib∗=b+n−∑xi. Llamamos a dicho
conjugado previo (y nos referimos a esto como un par conjugado Bernoulli-Beta).