Básicamente está haciendo una pregunta muy interesante: ¿debería predecir el uso de la estimación máxima a posteriori "MAP Bayesian" o "Real Bayesian"?
Suponga que conoce la distribución verdadera de que , luego, utilizando la estimación MAP, suponga que desea hacer 100 predicciones en los próximos 100 resultados de volteo. Siempre debes adivinar que la vuelta es la cola , NO adivinar cabezas y colas. Esto se llama "MAP Bayesian", básicamente lo estás haciendo20 80P(H)=0.22080
argmaxθf(x|θ)
No es difícil demostrar que al hacerlo puede minimizar el error predicho (pérdida de 0-1). La prueba se puede encontrar en ~ página 53 de Introducción al aprendizaje estadístico .
Hay otra forma de hacer esto llamado enfoque "Real Bayesiano". Básicamente, no está tratando de "seleccionar el resultado con la mayor probabilidad, sino considerar todos los casos de forma probabilística". Por lo tanto, si alguien le pide que "prediga los próximos 100 saltos", debe pausarlo, porque cuando dio 100 resultados binarios, la información probabilística para cada resultado desaparece. En cambio, debe preguntar qué quiere hacer DESPUÉS de conocer los resultados.
Suponga que él / ella tiene alguna función de pérdida (no es necesario para 0-1 pérdida, por ejemplo, la función de pérdida puede ser, si pierde una cabeza, debe pagar $ 1, pero si pierde una cola, debe pagar $ 5, es decir, pérdida desequilibrada) en su predicción, entonces debe usar su conocimiento sobre la distribución de resultados para minimizar la pérdida en toda la distribución
∑x∑yp(x,y)L(f(x),y)
, es decir, incorpore su conocimiento sobre la distribución a la pérdida, en lugar de la "manera sabia", obtenga las predicciones y realice los siguientes pasos.
Además, tiene una muy buena intuición sobre lo que tendrá cuando haya muchos resultados posibles. La estimación de MAP no funcionará bien si el número de resultados es grande y la masa de probabilidad está ampliamente distribuida. Piensa que tienes 100 dados laterales y conoces la verdadera distribución. Donde , y . ¿Ahora qué haces con MAP? Siempre adivinará que obtiene el primer lado , ya que tiene la mayor probabilidad en comparación con los demás. ¡Sin embargo, te equivocarás el de las veces!P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%