¿Cuándo Naive Bayes funciona mejor que SVM?

En un pequeño problema de clasificación de texto que estaba viendo, Naive Bayes ha estado exhibiendo un rendimiento similar o mayor que un SVM y estaba muy confundido.

Me preguntaba qué factores deciden el triunfo de un algoritmo sobre el otro. ¿Hay situaciones en las que no tiene sentido usar Naive Bayes sobre SVM? ¿Alguien puede arrojar luz sobre esto?

— Leyenda
fuente

Siga este enlace para obtener un tutorial

— q12

No hay una respuesta única sobre cuál es el mejor método de clasificación para un conjunto de datos dado . Siempre se deben considerar diferentes tipos de clasificadores para un estudio comparativo sobre un conjunto de datos dado. Dadas las propiedades del conjunto de datos, puede tener algunas pistas que pueden dar preferencia a algunos métodos. Sin embargo, aún sería aconsejable experimentar con todos, si es posible.

Naive Bayes Classifier (NBC) y Support Vector Machine (SVM) tienen diferentes opciones, incluida la elección de la función del núcleo para cada uno. Ambos son sensibles a la optimización de parámetros (es decir, una selección de parámetros diferente puede cambiar significativamente su salida) . Entonces, si tiene un resultado que muestra que NBC está funcionando mejor que SVM. Esto solo es cierto para los parámetros seleccionados. Sin embargo, para otra selección de parámetros, es posible que SVM funcione mejor.

En general, si las variables de su conjunto de datos satisfacen el supuesto de independencia en NBC y el grado de superposición de clases es pequeño (es decir, límite de decisión lineal potencial), se esperaría que NBC logre un buen resultado. Para algunos conjuntos de datos, con la optimización mediante la selección de características de envoltura, por ejemplo, NBC puede derrotar a otros clasificadores. Incluso si logra un rendimiento comparable, NBC será más deseable debido a su alta velocidad.

En resumen, no deberíamos preferir ningún método de clasificación si supera a otros en un contexto, ya que podría fallar severamente en otro. ( ESTO ES NORMAL EN PROBLEMAS DE MINERÍA DE DATOS ).

— soufanom
fuente

(+1) También se llama teorema de no almuerzo gratis . Sin embargo, no estoy completamente de acuerdo con la comparación de sensibilidad de parámetros (el árbol de decisión único es uno de los enfoques más sensibles en mi humilde opinión), pero no deberíamos discutir sobre eso aquí :).

— steffen

@steffen, gracias por tu valioso comentario. Hay muchas formas diferentes de optimizar los modelos y estoy de acuerdo en que no podemos generalizar qué modelo es más senesivo en todos los casos. Para la selección de funciones, los DT son, probablemente, menos sensibles que los NBC, pero en general puede no ser el caso. Editaré la respuesta para considerar su comentario y, si lo desea, también puede editarlo. Muchas gracias :).

— soufanom

+1 para el comentario sobre la sensibilidad del parámetro. También vale la pena señalar que gran parte de la teoría que sustenta las SVM se aplica a los modelos con un núcleo fijo, por lo que tan pronto como intente optimizar los hiperparámetros (que deben hacerse y hacerse con cuidado), gran parte de la base teórica ya no se aplica.

— Dikran Marsupial