En pocas palabras, y sin ningún símbolo matemático, anterior significa creencias iniciales sobre un evento en términos de distribución de probabilidad . Luego configura un experimento y obtiene algunos datos, y luego "actualiza" su creencia (y, por lo tanto, la distribución de probabilidad) de acuerdo con el resultado del experimento (la distribución de probabilidad posterior).
Ejemplo:
supongamos que se nos dan dos monedas. Pero no sabemos qué moneda es falsa. La moneda 1 es imparcial (CABEZAS y COLAS tienen una probabilidad del 50%), y la moneda 2 está sesgada, por ejemplo, sabemos que da CABEZAS con una probabilidad del 60%. Matemáticamente:
Dado que tenemos CABEZAS, la probabilidad de que sea Moneda 1 es 0.4 y la probabilidad de que sea Moneda 2 es 0.6p ( H | C o i n 2 ) = 0.6
p ( HEl | Co i n1) = 0.4
p ( HEl | Co i n2) = 0.6
Entonces, eso es todo lo que sabemos antes de establecer un experimento.
Ahora vamos a elegir una moneda para lanzarla y, según la información que tenemos (H o T), vamos a adivinar qué moneda hemos elegido (Moneda 1 o Moneda 2).
Inicialmente suponemos que ambas monedas tienen las mismas posibilidades, porque todavía no tenemos información. Este es nuestro prior . Es una distribución uniforme .p ( Co i n1) = p ( Co i n2) = 0.5
Ahora tomamos al azar una moneda, la lanzamos y tenemos CABEZAS. En este momento todo sucede. Calculamos la probabilidad / distribución posterior utilizando la fórmula bayesiana:
p ( Co i n1El | H) = p ( HEl | Co i n1) p ( Co i n1)p ( HEl | Co i n1) p ( Co i n1) + p ( HEl | Co i n2) p ( Co i n2)= 0.4 × 0.50.4 × 0.5 + 0.6 × 0.5= 0.4
p ( Co i n2El | H) = p ( HEl | Co i n2) p ( Co i n2)p ( HEl | Co i n1) p ( Co i n1) + p ( HEl | Co i n2) p ( Co i n2)= 0.6 × 0.50.4 × 0.5 + 0.6 × 0.5= 0.6
Entonces, inicialmente teníamos probabilidad para cada moneda, pero ahora después del experimento nuestras creencias han cambiado, ahora creemos que la moneda es la Moneda 1 con probabilidad 0.4 y es la Moneda 2 con probabilidad 0.6. Esta es nuestra distribución posterior , distribución de Bernoulli .0.5 0.5
Este es el principio básico de la inferencia bayesiana y las estadísticas utilizadas en el aprendizaje automático.