Respuestas:
Hay cuatro ventajas principales: en primer lugar, tiene un parámetro de regularización, que hace que el usuario piense en evitar un ajuste excesivo. En segundo lugar, utiliza el truco del kernel, por lo que puede generar conocimiento experto sobre el problema mediante la ingeniería del kernel. En tercer lugar, un SVM se define por un problema de optimización convexo (sin mínimos locales) para el que existen métodos eficientes (por ejemplo, SMO). Por último, es una aproximación a un límite en la tasa de error de prueba, y hay un cuerpo sustancial de teoría detrás que sugiere que debería ser una buena idea.
Las desventajas son que la teoría solo cubre realmente la determinación de los parámetros para un valor dado de la regularización y los parámetros del núcleo y la elección del núcleo. En cierto modo, el SVM mueve el problema del sobreajuste de la optimización de los parámetros a la selección del modelo. Lamentablemente, los modelos de kernel pueden ser bastante sensibles al ajuste excesivo del criterio de selección de modelos, ver
GC Cawley y NLC Talbot, Ajuste excesivo en la selección del modelo y posterior sesgo de selección en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Research, vol. 11, págs. 2079-2107, julio de 2010. ( pdf )
Sin embargo, tenga en cuenta que este problema no es exclusivo de los métodos del núcleo, la mayoría de los métodos de aprendizaje automático tienen problemas similares. La pérdida de la bisagra utilizada en el SVM resulta en escasez. Sin embargo, a menudo la elección óptima del kernel y los parámetros de regularización significan que todos los datos son vectores de soporte. Si realmente desea una máquina de kernel escasa, use algo que se diseñó para ser escasa desde el principio (en lugar de ser un subproducto útil), como la Máquina de vectores informativos. La función de pérdida utilizada para la regresión de vectores de soporte no tiene una interpretación estadística obvia, a menudo el conocimiento experto del problema puede codificarse en la función de pérdida, por ejemplo, Poisson o Beta o Gauss. Del mismo modo, en muchos problemas de clasificación, realmente desea la probabilidad de pertenencia a la clase,
Eso es todo lo que se me ocurre.