En realidad, esto es bastante simple: el clasificador de Bayes elige la clase que tiene mayor probabilidad de ocurrencia a posteriori (llamada estimación máxima a posteriori ). La función de pérdida 0-1 penaliza la clasificación errónea, es decir, asigna la pérdida más pequeña a la solución que tiene el mayor número de clasificaciones correctas. Entonces, en ambos casos estamos hablando del modo de estimación . Recuerde que el modo es el valor más común en el conjunto de datos, o el valor más probable , por lo que tanto maximizar la probabilidad posterior como minimizar la pérdida 0-1 lleva a estimar el modo.
Si necesita una prueba formal, Angela J. Yu la proporciona en el documento Introducción a la teoría de la decisión bayesiana :
La función de pérdida binaria 0-1 tiene la siguiente forma:
lx(s^,s∗)=1−δs^s∗={10ifs^≠s∗otherwise
donde es la función Delta de Kronecker. (...) la pérdida esperada es:δ
Lx(s^)=∑s∗lx(s^,s∗)P(s=s∗∣x)=∑s∗(1−δs^s∗)P(s=s∗∣x)=∑s∗P(s=s∗∣x)ds∗−∑s∗δs^s∗P(s=s∗∣x)=1−P(s=s∗∣x)
Esto es cierto para la estimación máxima a posteriori en general. Entonces, si conoce la distribución posterior, suponiendo una pérdida de 0-1, la regla de clasificación más óptima es tomar el modo de la distribución posterior, a esto le llamamos un clasificador Bayes óptimo . En la vida real, generalmente no conocemos la distribución posterior, sino que la estimamos. El clasificador Naive Bayes se aproxima al clasificador óptimo al observar la distribución empírica y al asumir la independencia de los predictores. Entonces, el ingenuo clasificador Bayes no es óptimo en sí mismo, pero se aproxima a la solución óptima. En su pregunta parece confundir esas dos cosas.