Los clasificadores ingenuos de Bayes son una opción popular para los problemas de clasificación. Hay muchas razones para esto, que incluyen:
- "Zeitgeist": conciencia generalizada después del éxito de los filtros de spam hace aproximadamente diez años
- Fácil de escribir
- El modelo clasificador es rápido de construir
- El modelo se puede modificar con nuevos datos de entrenamiento sin tener que reconstruir el modelo.
Sin embargo, son 'ingenuos', es decir, suponen que las características son independientes, esto contrasta con otros clasificadores como los clasificadores de máxima entropía (que son lentos para calcular).
El supuesto de independencia generalmente no se puede suponer, y en muchos (¿la mayoría de los casos?), Incluido el ejemplo del filtro de spam, simplemente es incorrecto.
Entonces, ¿por qué el clasificador Naive Bayes todavía funciona muy bien en tales aplicaciones, incluso cuando las características no son independientes entre sí?