Ventajas y desventajas de SVM

¿Alguien puede explicarme las ventajas y desventajas de la clasificación SVM que la distingue de otros clasificadores?

machine-learning svm

— Lakesh
fuente

¿En que contexto? ¿Con qué propósito? ¿Con qué tipo de SVM? ¿Para qué tipo de datos?

Hay cuatro ventajas principales: en primer lugar, tiene un parámetro de regularización, que hace que el usuario piense en evitar un ajuste excesivo. En segundo lugar, utiliza el truco del kernel, por lo que puede generar conocimiento experto sobre el problema mediante la ingeniería del kernel. En tercer lugar, un SVM se define por un problema de optimización convexo (sin mínimos locales) para el que existen métodos eficientes (por ejemplo, SMO). Por último, es una aproximación a un límite en la tasa de error de prueba, y hay un cuerpo sustancial de teoría detrás que sugiere que debería ser una buena idea.

Las desventajas son que la teoría solo cubre realmente la determinación de los parámetros para un valor dado de la regularización y los parámetros del núcleo y la elección del núcleo. En cierto modo, el SVM mueve el problema del sobreajuste de la optimización de los parámetros a la selección del modelo. Lamentablemente, los modelos de kernel pueden ser bastante sensibles al ajuste excesivo del criterio de selección de modelos, ver

GC Cawley y NLC Talbot, Ajuste excesivo en la selección del modelo y posterior sesgo de selección en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Research, vol. 11, págs. 2079-2107, julio de 2010. ( pdf )

Sin embargo, tenga en cuenta que este problema no es exclusivo de los métodos del núcleo, la mayoría de los métodos de aprendizaje automático tienen problemas similares. La pérdida de la bisagra utilizada en el SVM resulta en escasez. Sin embargo, a menudo la elección óptima del kernel y los parámetros de regularización significan que todos los datos son vectores de soporte. Si realmente desea una máquina de kernel escasa, use algo que se diseñó para ser escasa desde el principio (en lugar de ser un subproducto útil), como la Máquina de vectores informativos. La función de pérdida utilizada para la regresión de vectores de soporte no tiene una interpretación estadística obvia, a menudo el conocimiento experto del problema puede codificarse en la función de pérdida, por ejemplo, Poisson o Beta o Gauss. Del mismo modo, en muchos problemas de clasificación, realmente desea la probabilidad de pertenencia a la clase,

Eso es todo lo que se me ocurre.

— Dikran Marsupial
fuente

¿Qué pasa con los desafíos para las dificultades de clasificación multiclase con SVM?

— Vass

@Vaas buen punto, en el pasado utilicé el algoritmo DAGSVM y descubrí que era bastante efectivo. Los problemas de varias clases no parecen tener una solución tan elegante dentro del marco SVM, la regresión logística del núcleo de múltiples clases probablemente sería el enfoque más similar que se mantuvo "elegante".

— Dikran Marsupial