¿Por qué con el clasificador Bayes logramos el mejor rendimiento que se puede lograr? ¿Cuál es la prueba / explicación formal de esto?
Por lo general, se considera que un conjunto de datos consiste en iid muestras de una distribución que genera sus datos. Luego, construye un modelo predictivo a partir de los datos dados: dada una muestra , predice la clase , mientras que la clase real de la muestra es .Dnxixif^(xi)f(xi)
Sin embargo, en teoría, podría decidir no elegir un modelo particular , sino considerar todos los modelos posibles a la vez y combinarlos de alguna manera en un gran modelo .f^chosenf^F^
Por supuesto, dados los datos, muchos de los modelos más pequeños podrían ser bastante improbables o inapropiados (por ejemplo, modelos que predicen solo un valor del objetivo, aunque haya múltiples valores del objetivo en su conjunto de datos ).D
En cualquier caso, desea predecir el valor objetivo de las nuevas muestras, que se extraen de la misma distribución que s. Una buena medida del rendimiento de su modelo sería
es decir, la probabilidad de que predecir el valor objetivo real para una aleatoriamente muestreada .xiee(model)=P[f(X)=model(X)],
X
Con la fórmula de Bayes, puede calcular cuál es la probabilidad de que una nueva muestra tenga el valor objetivo , dados los datos :xvD
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
Uno debe enfatizar que
- generalmente es o , ya que es una función determinista de ,P(v∣f^)01f^x
- no generalmente, pero casi todo el tiempo, es imposible estimar (a excepción de los casos triviales mencionados anteriormente),P(f^∣D)
- generalmente no, pero casi todo el tiempo, el número de modelos posibles es demasiado grande para evaluar la suma superior.f^
Por lo tanto, es muy difícil obtener / estimar en la mayoría de los casos.P(v∣D)
Ahora, procedemos al clasificador Optimal Bayes. Para una dada , predice el valor
Dado que este es el valor más probable entre todos los valores objetivo posibles , el clasificador Optimal Bayes maximiza la medida de rendimiento .xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Como siempre usamos el clasificador Bayes como punto de referencia para comparar el rendimiento de todos los demás clasificadores.
Probablemente, use la versión ingenua del clasificador Bayes. Es fácil de implementar, funciona razonablemente bien la mayor parte del tiempo, pero solo calcula una estimación ingenua de .P(v∣D)